técnicas de processamento de linguagem natural aplicadas ao processo de mineração de textos uma...

UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO

UNIDADE ACADMICA DE SERRA TALHADA

BACHARELADO EM SISTEMAS DE INFORMAO

RONNIE EDSON DE SOUZA SANTOS

Tcnicas de Processamento de Linguagem

Natural Aplicadas ao Processo de Minerao

de Textos: uma Reviso Sistemtica

Serra Talhada,

2012

Ronnie Edson de Souza Santos

Tcnicas de Processamento de Linguagem


de Textos: uma Reviso Sistemtica

Projeto de Concluso de Curso apresentada ao Curso

de Bacharelado em Sistemas de Informao da

Unidade Acadmica de Serra Talhada da

Universidade Federal Rural de Pernambuco como

requisito parcial obteno do grau de Bacharel.

Orientador: Prof. MSc Ellen Polliana Ramos Souza

Coorientador: Prof. MSc Jorge S. Correia Neto

Serra Talhada

2012

Ficha catalogrfica

S237t Santos, Ronnie Edson de Sousa Tcnicas de processamento de linguagem natural aplicadas ao processo de minerao de textos: uma reviso sistemtica / Ronnie Edson de Sousa Santos. 2012.

55 f.: il. Orientadora: Ellen Polliana Ramos de Souza. Monografia (Bacharelado em Sistemas de Informao) Universidade Federal Rural de Pernambuco. Unidade Acadmica de Serra Talhada, Serra Talhada, 2012. Inclui Referncias e apndice.

1. Textos- Minerao. 2. Linguagem natural processamento. 3. Textos - reviso sistemtica. I. Sousa, Ellen Polliana Ramos de. II. Ttulo

CDD 004

UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO

UNIDADE ACADMICA DE SERRA TALHADA

BACHARELADO EM SISTEMAS DE INFORMAO

RONNIE EDSON DE SOUZA SANTOS

Tcnicas de Processamento de Linguagem Natural Aplicadas ao Processo de

Minerao de Textos: uma Reviso Sistemtica

Trabalho de Concluso de Curso julgado adequado para obteno do ttulo de Bacharel em

Sistemas de Informao, defendida e aprovada por unanimidade em 06/11/2012 pela banca

examinadora.

Banca Examinadora:

DEDICATRIA

Dedico este trabalho aos meus pais

que me deram toda a base necessria para

que eu me tornasse o homem que sou e que

hoje acompanham e iluminam meus passos

de algum lugar em outro plano.

AGRADECIMENTOS

Agradeo primeiramente ao Deus criador de todas as coisas e ao nosso senhor Jesus

Cristo pela interveno nos momentos mais difceis da minha vida e pela inspirao para a

concluso das tarefas e projetos.

Agradeo aos meus irmos Robson e Kcia e ao meu av Eloi, fonte da minha fora,

perseverana e da minha esperana, por acreditarem em mim em todos os momentos da minha

graduao e por me darem coragem para lutar pela vitria. Tambm aos meus familiares, que

mesmo distantes sempre acreditaram no meu sucesso, em especial a tia Franscisca e me

Elisa.

Agradeo ao meu melhor amigo Vanut, principal parceiro nesta jornada na

graduao e presente em todos os trabalhos, seminrios e artigos desenvolvidos ao longo

destes 5 anos. Tambm a sua famlia na qual eu fui acolhido como filho por tia Diva, tio Neno

e como irmo por Vanessa.

Agradeo a minha orientadora Prof Ellen Souza pelo acompanhmento, pelo apoio e

principalmente pela pacincia nos momentos mais difceis da construo deste trabalho.

Tambm ao meu co-orientador Prof Jorge Correia pela ateno e o apoio dispensado no

somente a este trabalho, mas a tantos outros desenvolvidos ao longo de toda a graduao.

Agradeo aos amigos sobreviventes da turma 2008.1, Andresa e Clbia

(intergrantes do Quarteto), alm de Mouglas e Thuran, os quais dividiram comigo todos

momentos bons e ruins em pelo menos todas as disciplinas obrigatrias do curso.

Agradeo tambm a cada professor que esteve a frente de alguma das 42 disciplinas

as quais eu cursei na graduao e tambm aos demais professores que trabalham para o

crescimento do curso de Sistemas de Informao e da UAST.

E finalmente agradeo a Celina, Gabriela, Ivo, Keyla, Hemerson, Janaina, Aline e

Graziella que se preocuparam e acompanharam o andamento deste. E tambm aos amigos que

estiveram prximos durante a concluso desta ltima etapa da graduao e torceram para que

este trabalho fosse bem sucedido: Manu, Camila, Cleyton, Alex, Jadson, Allan e a todos os

outros presentes tambm nos momentos necessrios para relaxar das ideias.

O esprito sem limites o maior tesouro do

homem.

(J.K. Rowling)

RESUMO

Introduo: A minerao de textos a atividade que surgiu com o propsito de descobrir

conhecimento em dados no estruturados (textuais) que so o tipo mais recorrente de dado no

meio digital, desde a popularizao da web. Este processo utiliza alm de algoritmos prprios,

tcnicas j conhecidas e consolidadas, dentre elas o Processamento de Linguagem Natural

(PLN) tem incrementado os resultados obtidos e justificado o esforo computacional

necessrio. Objetivo: Este estudo tem como objetivo identificar e avaliar as tcnicas e/ou

algoritmos de PLN disponveis para realizar minerao em bases de dados textuais com o

intuito realizar diversas discusses sobre as tcnicas e/ou algoritmos aplicados nos ltimos

anos atravs das experincias relevantes neste contexto. Alm disso, os resultados desta

pesquisa podero ser aplicados diretamente em uma rede social especfica de carter

colaborativo, desenvolvida atravs de uma parceria entre a UFRPE e a AACD. Mtodo: Foi

utilizada a tcnica de pesquisa conhecida como Reviso Sistemtica, cujo propsito

identificar, avaliar e interpretar todos os trabalhos disponveis e relevantes sobre uma

determinada questo de pesquisa, executando um processo de reviso rigoroso, confivel e

passvel de auditagem, podendo inclusive ser replicado. A reviso sistemtica foi conduzida

em trs etapas: planejamento que incluiu o marco de avaliao do planejamento, execuo

que tambm possuiu uma avaliao e apresentao dos resultados. Resultado: Foram

encontrados 74 trabalhos em duas grandes bases de produes cientficas dos quais 24

trabalhos foram includos na pesquisa aps passarem pelos critrios de incluso e excluso

definidos pela reviso e a sua anlise forneceu evidncias com as quais pde-se elaborar uma

lista com 11 tcnicas usados em PLN e aplicadas na minerao de textos e responder as

questes definidas sobre vantagens e problemas na aplicao de cada uma, experincias no

contexto das redes sociais e recorrncia das tcnicas. Concluses: Dentre todas as tcnicas, a

ontologia se mostrou a mais eficiente, primeiramente por ter sido aplicada em diversos

contextos e segundo pelas suas caractersticas, sendo capaz de armazenar textos de modo no

ambguo em formato padronizado e de realizar a indexao semntica e a recuperao da

informao.

Palavras-chave: Minerao de textos, Processamento de linguagem natural, reviso

sistemtica.

ABSTRACT

Introduction: Text mining is an activity that raised aiming to discover knowledge in

not-structured data (textual) the most recurrent type of data in digital plan, since the

popularization of web. This process uses itself algorithms as well as known and

consolidated techniques, among which can be highlighted Natural Language Processing

(NLP) which has incremented obtained results and has justified the necessary

computational effort. Objective: This study aims to identify and evaluate the techniques

and/or NLP algorithms available to perform data mining in textual databases in order to

perform discussion about techniques and algorithms that have been applied in last years

in this context. Method: It was used the Systematic review technique, which proposes to

identify, evaluate and interpret all available and relevant works about some research

question, performing a rigorous review process, trustable and allowing to auditing, and

may even be replicated. A Systematic Review was conducted in three steps: planning

which include planning evaluation, execution which also include execution evaluation

and presentation of results. Result: It was found 74 works in two large bases of scientific

productions in which, 24 works were included in the research after being filtered by the

inclusion and exclusion criteria defined by the systematic review. The analysis of these

studies provided evidences with which it was possible to elaborate a list with 11 NLP

techniques applied in text mining, and to each of these techniques it were answered

questions about advantages and problems in application, experiences in social network

context and the use of these techniques in last decade. Conclusion: Among all

techniques, the ontology was presented as the most efficient, first for have been applied

in several contexts throughout a decade and se cond for its features, being capable to

store text in a non-ambiguous way in a standardized format and perform semantic

indexing and information retrieval.

Keywords: Text Data Mining, Natural Language Processing, Systematic review

LISTA DE ILUSTRAES

Figura 1 Etapas do processamento de linguagem natural 19

Figura 2 Processo de Reviso Sistemtica 21

Figura 3 Quantidade total de trabalhos retornados pela string de busca nas bases 29

Figura 4 Quantidade de estudos selecionados pelos critrios de incluso e excluso 29

Figura 5 Quantidade de estudos selecionados estudo empregado 29

Figura 6 Quantidade de estudos selecionados pelos critrios de incluso e excluso 30

Figura 7 Distribuio dos estudos por pas 31

LISTA DE TABELAS

Tabela 1 Tcnicas identificadas pela reviso sistemtica 34

Tabela 2 Vantagens e limitaes das tcnicas identificadas 41

Tabela 3 Distribuio de tcnicas por ano 42

Tabela 4 Construo da string de busca da reviso sistemtica 53

11

SUMRIO

1 INTRODUO 13

1.1 Motivao/ Justificativa 13

1.2 Objetivos 15

1.2.1 Objetivo Geral 15

1.2.2 Objetivos Especficos 15

2 REFERENCIAL CONCEITUAL 16

2.1 Minerao de Textos 16

2.2 Processamento de Linguagem Natural 17

2.3 Reviso Sistemtica 20

2.4 Rede Social GenNet 22

2.5 Sntese do captulo 24

3 PROCEDIMENTOS METODOLGICOS 25

3.1 Execuo da Reviso Sistemtica 25


4 TCNICAS DE PROCESSAMENTO DE LINGUAGEM NATURAL APLICADAS

AO PROCESSO DE MINERAO DE TEXTOS 28

4.1 Foco das Pesquisas Primrias 31

4.1.1 Extrao de conhecimento em textos 31

4.1.2 Representao do contedo de documentos 32

4.1.3 Classificao de textos 32

4.1.4 Busca de informaes em textos 33

4.2 Respostas para as questes da reviso sistemtica 34

4.2.1 Quais so as tcnicas, algoritmos ou estruturao de dados utilizados pelo PLN

esto sendo aplicadas na minerao de textos? 34

4.2.2 De que formas so aplicadas? 35

4.2.3 Quais so as vantagens e as limitaes observadas pelas pesquisas primrias? 40

4.2.4 Qual a tcnica mais recorrente? 42

4.2.5 Existe alguma experincia do uso de PLN aplicado minerao de textos

postados em redes sociais virtuais? 43


12

5 CONCLUSO 46

5.1 Consideraes finais 46

5.2 Contribuies deste trabalho 47

5.3 Proposta para trabalhos futuros 48

REFERNCIAS 49

APNDICE A PROTOCOLO DE REVISO SISTEMTICA 51

APNDICE B LISTA DE ESTUDOS PRIMRIOS USADOS NA REVISO

SISTEMTICA 54

13

1 Introduo

Este captulo apresentado o contedo introdutrio deste trabalho. A seo 1.1

trata brevemente dos tpicos referentes motivao e justificativa para

realizao deste projeto e na seo 1.2, o objetivo geral e os objetivos especficos

da pesquisa so elucidados.

1.1 Motivao/ Justificativa

A sobrecarga de informao um fenmeno contemporneo descrito e observado a

partir do crescimento exponencial na disposio de informaes, registrada principalmente

aps a popularizao e a expanso da Internet (OLIVEIRA et al., 2011; SILVA, 2003). Neste

contexto, a maior parte dos dados disponveis est armazenada em documentos na forma de

textos escritos em linguagem natural. Como o paradigma de programao tradicional possui

uma srie de dificuldades para captar as relaes difusas e muitas vezes ambguas em

documentos de texto (MACHADO et al., 2010), novas formas de automao e extrao de

conhecimento desse emaranhado textual so, cada vez mais, objeto de estudo da Computao.

Com a finalidade de resolver problemas de descoberta de conhecimento em bases de

texto, surge a minerao de textos, oferecendo um conjunto de mtodos que permite a

navegao, organizao e descoberta inteligente de informao em bases de dados textuais.

Segundo Passos e Aranha (2006), a minerao de textos um campo multidisciplinar que

inclui subsdios da Informtica, Estatstica, Lingustica e da Cincia Cognitiva capazes de

lidar com um grande nmero de palavras e estruturas em linguagem natural.

Para o processamento de informaes pelos algoritmos computacionais, a forma

textual no a mais adequada, uma vez que no estruturada e no explicita a semntica

contida nos textos. Neste sentido, os sistemas de minerao de textos no podem

simplesmente submeter um conjunto de textos desestruturados para os algoritmos de

descoberta de conhecimento (ARANHA, 2007; GOMES, 2008). Para tal, tcnicas de

Processamento de Linguagem Natural (PLN) so empregadas com o intuito de preparar os

dados textuais, nos quais se busca algum tipo de conhecimento. Assim, o principal objetivo do

PLN prover um nvel mais alto de compreenso da linguagem natural atravs do uso de

14

recursos computacionais, com o emprego de tcnicas para o rpido processamento de texto

(MACHADO et al., 2010). Ainda com relao minerao de textos, o emprego de tcnicas e

algoritmos de PLN est associado atividade conhecida como pr-processamento, executada

logo aps a coleta dos dados (SOARES, 2008).

Atualmente, existem diferentes abordagens e tcnicas para o uso do PLN,

dependendo do que se deseja buscar, do contexto de trabalho e da qualidade do resultado a ser

produzido. A literatura apresenta experincias do uso de PLN para resolver questes como

extrao de informao, recuperao de informao, traduo automtica, gerao automtica

de texto, gerao de linguagem natural, interpretao de linguagem natural, simplificao de

texto, correo ortogrfica e reconhecimento de discussos, dentre outras (SCHNEIDER,

2001).

Segundo Aranha (2007), considerando em particular o processo de descoberta de

conhecimento, as prticas de PLN so meios agregadores de valores semnticos ao texto,

capazes de gerar diversos benefcios na busca por padres especficos. Assim, este estudo tem

como objetivo identificar e avaliar as tcnicas e/ou algoritmos de PLN disponveis para

realizar minerao em bases de dados textuais com o intuito de discutir sobre as abordagens

aplicadas nos ltimos anos, a forma de utilizao e o contexto em que foi aplicado, as

experincias relevantes neste contexto, bem como vantagens e desvantagens das tcnicas de

PLN aplicadas minerao de textos. Pretende-se ainda, identificar experincias na rea de

minerao de textos compartilhados em redes sociais virtuais, visto que estes ambientes

possuem atualmente um alto nvel de circulao de informao, principalmente na forma de

texto. Alm disso, os resultados desta pesquisa podero ser aplicados diretamente em uma

rede social especfica de carter colaborativo, a rede GenNet que foi desenvolvida atravs de

uma parceria entre a UFRPE e a AACD.

Para resolver tal problema, foi utilizada a tcnica de pesquisa conhecida como

Reviso Sistemtica, cujo propsito identificar, avaliar e interpretar trabalhos disponveis e

relevantes sobre uma determinada questo de pesquisa, executando um processo de reviso

rigoroso, confivel e passvel de auditagem, podendo inclusive ser replicado (MAFRA, 2006).

A reviso sistemtica desenvolve uma anlise crtica sobre os estudos coletados no processo

de identificao de trabalhos relacionados com a questo central a ser respondida. Assim, o

resultado da reviso possibilitar tambm a identificao de novos aspectos sobre o tema e

novas linhas de estudo.

15

1.2 Objetivos

A seguir apresentado o objetivo geral deste projeto e como o mesmo ser

implementado em termos de seus objetivos especficos.

1.2.1 Objetivo Geral

Este trabalho est pautado no desenvolvimento de uma reviso sistemtica com o

objetivo de identificar, analisar e interpretar dados que relatem o uso das tcnicas de PLN em

diversos contextos, considerando as pesquisas que buscaram explorar o uso de tcnicas de

Processamento de Linguagem Natural aplicadas minerao de textos.

1.2.2 Objetivos Especficos

Como objetivos especficos do trabalho foram determinados:

1. Realizar o levantamento da produo cientfica sobre aplicao de PLN em

minerao de texto;

2. Montar uma lista de evidncias encontradas nas experincias publicadas sobre

PLN e minerao de textos;

4. Discutir as abordagens existentes para o uso de PNL na minerao de textos

em diversos contextos;

5. Analisar as vantagens e desvantagens do uso das tcnicas de PNL aplicadas nos

ltimos anos;

6. Identificar experincias de aplicaes de PLN e minerao de textos em redes

sociais virtuais.

16

2 Referencial Conceitual

Neste captulo apresentada uma breve explanao sobre os contedos que so

abordados pelo trabalho. A seo 2.1 apresenta os conceitos e definies sobre o

processo de minerao de textos. Na seo 2.2 apresentada a tcnica de

processamento de linguagem natural, comumente utilizada no contexto da

minerao de textos. A seo 2.3 trata da abordagem metodolgica denominada

Reviso Sistemtica, que ser aplicada por este estudo para que os objetivos

sejam atingidos. Por fim, a seo 2.4 apresenta um resumo geral de todo o

referencial conceitual da pesquisa.

2.1 Minerao de Textos

O avano das tecnologias para aquisio e armazenamento de dados tem permitido

que o volume de informao gerado em formato digital aumente de forma signicativa.

Estimativas indicam que, no perodo de 2003 a 2010, a quantidade de informao no universo

digital ultrapassou cinco hexabytes e cerca de 80% desses dados esto em de texto

(REZENDE et al., 2011).

Nesse contexto, a minerao de textos uma importante abordagem aplicada na

transformao desses itens textuais em conhecimento til. Oliveira (2011) ressalta que essa

transformao baseada na investigao de padres, tendncias e regularidades de textos e

documentos em uma linguagem compreensvel, tendo como produto final a extrao de

informaes relevantes. Assim, a minerao de textos busca extrair informao de maneira

inteligente e confivel a partir de grandes volumes de dados textuais.

Minerar dados do tipo texto um mtodo interdisciplinar que envolve as reas de

recuperao de informao, aprendizagem de mquina, estatstica, lingustica computacional e

minerao de dados. Cada uma dessas reas, ou a interseco das mesmas, usada para

transformar o texto em um formato que a mquina consiga process-lo e entend-lo

(MACHADO et al., 2010). A principal diferena entre o processo de minerao de dados

tradicional e a minerao de textos que, enquanto a abordagem convencional trabalha

17

exclusivamente com dados estruturados, a minerao de textos lida com dados em linguagem

natural e que, portanto, possui pouca ou nenhuma estrutura (REZENDE et al., 2011;

SOARES, 2008).

Segundo Passos e Aranha (2006), a minerao de textos utiliza alm de algoritmos

prprios, tcnicas j conhecidas e consolidadas como:

a) Indexao: serve para realizar a busca rpida de documentos atravs de palavras-

chave. Fornece uma estrutura de dados de armazenamento inteligente que proporciona

aumento significativo de desempenho;

b) Processamento de Linguagem Natural: utiliza conhecimentos da rea de lingustica

para aproveitar ao mximo o contedo do texto, extraindo entidades e relacionamentos,

detectando sinnimos, corrigindo palavras e ainda desambiguizando-as;

c) Minerao de Dados: as tcnicas inteligentes de minerao de dados so muito teis

para identificar os conhecimentos relevantes em banco de dados organizados e pr-

processados. As tcnicas mais utilizadas so classificao e clusterizao, dentre outras.

Embora existam abordagens do processo de minerao de textos que no fazem uso

de PLN, a sua utilizao tem incrementado os resultados obtidos, justificando o esforo

computacional adicional, como afirma Aranha (2007).

2.2 Processamento de Linguagem Natural

O Processamento de Linguagem Natural surgiu devido necessidade de

compreenso automtica e comunicao em geral do ser humano com o computador. Trata-se

de um mecanismo criado no somente para extrair as informaes de textos, mas tambm para

facilitar a entrada de dados nos sistemas e a estruturao desses dados (BULEGON, 2010).

Segundo Aranha (2007), o PLN o campo da Cincia da Computao e da Lingustica que

abrange um conjunto de mtodos formais para analisar textos e gerar frases em um idioma

humano atravs do uso de programas computacionais.

Bulegon (2010) ressalta tambm a diviso do Processamento de Linguagem Natural

em quatro etapas: anlise morfolgica, anlise sinttica, anlise semntica e anlise

pragmtica, que so realizadas nesta mesma ordem.

18

A anlise morfolgica responsvel por definir artigos, substantivos, verbos e

adjetivos, armazenando-os em um tipo de dicionrio. Depois de construdo o dicionrio, a

anlise sinttica faz uso dele procurando mostrar relacionamento entre as palavras e, num

segundo momento, verifica sujeito, predicado, complementos nominais e verbais, adjuntos e

apostos. Na anlise semntica, ocorre o encontro de termos ambguos, de sufixos e afixos, ou

seja, questes de significado associados aos morfemas componentes de uma palavra, o sentido

real da frase ou palavra. Para a juno e visualizao de todas as etapas, a anlise pragmtica

faz a conexo de todo o mecanismo e mostra visualmente o resultado. Para este caso, existem

algoritmos que disponibilizam o texto em forma de rvore apresentando todos os passos

seguidos at a concluso do processamento.

A figura 1 mostra uma expresso do ponto de vista de cada etapa do processamento

de linguagem natural. Atravs desde esquema pode-se perceber que na etapa da anlise

morfolgica, cada termo da sentena foi analisado individualmente e sua funo gramatical na

orao foi reconhecida (representada por cores individualmente). Por exemplo: O (artigo),

Senhor (substantivo), Esperou (verbo).

No prximo passo, a anlise sinttica verifica o relacionamento entre as palavras

indicando, por exemplo, que artigo est se referindo a cada substantivo e tambm elementos

como o sujeito (O senhor) e o predicado da frase (esperou a esposa voltar do banco sentando

no banco). Este relacionamento apresentado por cores nos mesmos tons.

A anlise semntica destaca radicais (esper, volt, sent) das palavras e realiza

desambiguaes como no caso do termo banco. Por fim, a anlise pragmtica realiza o

processamento da expresso como um todo, podendo identificar, por exemplo, oraes de

sentido irnico.

19

Figura 1 Etapas do processamento de linguagem natural.

Fonte: Elaborada pelo autor (2012).

As abordagens atuais da PLN se dividem basicamente em quatro categorias

principais: simblica, estatstica, de conexo e hbrida (CERQUEIRA, 2010). A abordagem

simblica est ligada aos fenmenos e paradigmas da lingustica e representa, atravs de

algoritmos, as regras conhecidas na linguagem. Os mtodos estatsticos utilizam clculos

matemticos para gerar modelos e regras a partir de exemplos de textos e sentenas. O

procedimento de conexo tambm desenvolve modelos generalistas, porm este utiliza os

mtodos estatsticos para complementar os mtodos de representao de conhecimento. Por

fim, a abordagem hbrida mescla mtodos vindos de abordagens diferentes para suprir as

necessidades do sistema ou mesmo reforar seus pontos fracos.

Dependendo do tipo de sistema e da abordagem de PLN utilizada, existem diversas

tcnicas e algoritmos que podem ser empregados: aprendizado por regras, programao lgica

indutiva, rvores, algortimo de classificao nave bayes, ontologias e modelos de Markov,

dentre outros (LADEIRA, 2010).

20

2.3 Reviso Sistemtica

O termo Reviso Sistemtica refere-se a uma metodologia de pesquisa que visa obter

e avaliar um conjunto de evidncias pertencentes a um contexto especfico (BIOLCHINI et

al., 2005). Diferentemente do mtodo comum de reviso da literatura, a reviso sistemtica

possui, como o nome sugere, um conjunto de passos formais e mtodos sistemticos

executados sobre um tpico em particular com a inteno de induzir a identificao, seleo e

produo de evidncias, considerando os conhecimentos e as iniciativas existentes no campo

de interesse (MIAN et al., 2005).

Revises sistemticas so geralmente utilizadas em reas com grande incidncia de

estudos empricos, como o caso da medicina e da psicologia. Na engenharia de software,

Kitchenham et al. (2004) adaptaram o mtodo de revises sistemticas utilizado na medicina

e nas cincias sociais, produzindo um material de referncia que tem sido utilizado para guiar

a construo de revises em diversos tpicos da engenharia de software (CAVALCANTI;

SILVA, 2011).

Dessa forma, a reviso sistemtica considerada um estudo secundrio, pois se

baseia nos mtodos e resultados de outros estudos, chamados de estudos primrios, como o

caso dos surveys, estudos de caso e experimentos. O desenvolvimento de uma abordagem

sistemtica e no de uma simples reviso da literatura possibilita ao pesquisador identificar,

avaliar e interpretar pesquisas disponveis e relevantes sobre uma determinada questo, um

tpico ou um fenmeno de interesse (MAFRA; TRAVASSOS, 2006).

Para executar o desenvolvimento de uma reviso sistemtica consistente utiliza-se

obrigatoriamente um protocolo de busca de pesquisas, atravs do qual a mesma reviso pode

ser executada por outros pesquisadores interessados. Os esforos na aplicao do mtodo

atravs do protocolo de busca devem prover a identificao de relatos de pesquisas que

apoiam ou no a questo ou tpico de interesse. Neste sentido, nenhum trabalho identificado

poder ser descartado da anlise executada atravs da reviso sistemtica, cujo resultado ser

a gerao de evidncias em determinado contexto (BIOLCHINI et al., 2005).

Alm de todos estes aspectos, a reviso sistemtica no consiste em um simples

rearranjo de dados e informaes publicadas anteriormente em estudos primrios. A reviso

sistemtica tambm um tipo de abordagem metodolgica com a finalidade de integrar

resultados experimentais e a sua aplicao poder enfatizar a descoberta de problemas gerais e

21

incentivar o diagnstico e a anlise de inconsistncias encontradas ao comparar estudos

individuais (MAFRA; TRAVASSOS, 2006).

Segundo Biochini et al. (2005), o processo de reviso sistemtica pode ser dividido

operacionalmente em trs fases, como apresentado na Figura 2.

Figura 2 - Processo de Reviso Sistemtica.

Fonte: Biochini et al. (2005).

O Planejamento: o primeiro estgio do processo e est relacionado com a

formulao do problema, os objetivos e a questo que iro guiar o trabalho do pesquisador e a

definio sobre quais artigos so relevantes ou no para a pesquisa. O protocolo de

planejamento da reviso sistemtica, elaborado neste momento, contm as definies da

execuo da reviso. O marco desta etapa a aprovao do protocolo. Neste estgio podem

surgir problemas que invalidem o protocolo de planejamento se, por exemplo, grande parte

dos artigos retornados pela busca for de natureza diferente da requerida pelo protocolo;

Caso o protocolo de planejamento da reviso sistemtica seja aprovado, na etapa de

Excecuo ocorre a avaliao dos trabalhos retornados pela busca nos repositrios, utilizando

por base a questo principal a ser respondida. Tambm so definidas quais evidncias

encontradas nos estudos primrios devem ser consideradas e quais podem ser descartadas.

Nesta etapa tambm existe um marco de avaliao da excecuo que est relacionado com a

anlise e interpretao das evidncias coletadas. A questo central da pesquisa utilizada para

definir que procedimentos o pesquisador deve seguir para que possa realizar inferncias sobre

os dados obtidos.

Por fim, a Anlise dos Resultados a fase final do processo e refere-se s concluses

da reviso sistemtica. Baseado na questo central do estudo definem-se quais das

informaes obtidas sero includas e apresentadas e quais no sero. Um rigoroso processo

22

para separar o que e o que no importante aplicado, pois a omisso de informaes pode

invalidar as concluses, caso o estudo no possa ser reproduzido por outros pesquisadores.

Biochini et al. (2005) tambm definem que a atividade de empacotamento de dados e

informaes deve ser executada durante todo o processo, para possibilitar a replicao da

reviso sistemtica. Por fim, ainda importante ressaltar que mesmo parecendo sequencial, o

processo de reviso sistemtica acontece de forma iterativa.

2.4 Rede Social GenNet

Na sociedade atual existe uma crescente necessidade de realizao de tarefas e de

resoluo de problemas de forma colaborativa, estejam os atores no mesmo local e ao mesmo

tempo ou no (BRITO; PEREIRA, 2004). As ferramentas de trabalho colaborativo criam

ambientes virtuais que permitem que atividades habitualmente executadas em conjunto, por

duas ou mais pessoas, possam continuar a serem realizadas, mesmo que os indivduos estejam

fisicamente distantes (TEIXEIRA FILHO, 2002).

Este tipo de configurao em rede peculiar ao ser humano. Ele se agrupa com seus

semelhantes e vai estabelecendo relaes de interesses que se desenvolvem e se modificam

conforme sua trajetria, entre as quais, relaes de trabalho. Essas redes sociais constituem

uma das estratgias subjacentes utilizadas pela sociedade para compartilhar informaes e

experincias, mediante as relaes entre os atores que as integram (TOMAL; ALCAR; DI

CHIARA, 2005).

Os sites de redes sociais so servios web que permitem que os indivduos i)

construam um perfil pblico ou semi-pblico; ii) articulem uma lista de amigos com os quais

eles compartilham uma conexo; iii) que possam navegar pelas listas de seus amigos

buscando novos possveis amigos para sua prpria rede (BOYD; ELLISON, 2007); iv) que

troquem mensagens; v) compartilhem contedos e; vi) agreguem contedos de sites parceiros

(STROUD, 2007 apud CORREIA NETO, 2011)

A rede social GenNet est diretamente relacionada com o desenvolvimento de

processos e tecnologias, contextualizados em ambientes colaborativos, voltados para a

promoo de aes de incluso social de indivduos portadores de doenas genticas com

deficincia fsica. O conjunto de funcionalidades da rede resultado da anlise de quatro

23

grandes redes sociais, selecionadas a partir do grau de popularidade na web e tambm da

natureza dos seus servios, alm de dados obtidos atravs de entrevistas com os principais

perfis de usurios almejados pela rede: mdicos, associaes e famlias de pacientes

(SANTOS; CORREIA NETO; VILAR, 2011).

Atravs da interao com as funcionalidades apresentadas acima, o usurio do

GenNet ter acesso a:

Seo aberta ao pblico geral (enciclopdia virtual) com informaes diversas;

Tpicos de orientao sobre aes, auxlios e atividades;

Ferramentas de capacitao (ainda no disponveis na verso atual);

Perfil social do usurio na rede, no qual o usurio indica o seu tipo representao: se

mdico, associao ou outros tipos usurio (pacientes, familiares, advogados,

assistentes sociais);

Envio e recebimento de mensagens de outros participantes;

Permisso para adicionar pessoas que tenham interesse em estabelecer relaes e

tambm criar grupos de usurios para o compartilhamento de materiais;

Participao de fruns de discusso para troca de informao com outros usurios;

Espao para publicao de ideias e experincias na forma de dirio virtual (blog) que

poder ser acompanhado pelos demais usurios da rede;

Ferramentas para que os grupos de usurios possam formar estruturas em

comunidades para interao;

Mtodos com os quais os usurios possam encontrar participantes com interesses

comuns ao ingressar na rede.

Alm disso, o material compartilhado no GenNet, como postagens no dirio e os

comentrios das discusses, poder ser avaliado pelos prprios usurios da rede e ter seu

contedo indicado para outros perfis de interesse. Por isso, as prximas verses da rede social

devero ser apoiadas por tcnicas computacionais inteligentes, como algoritmos de

recomendao e tcnicas de minerao de texto e busca por contedo para melhorar a

colaborao e as aes com os usurios.

24

2.5 Sntese do captulo

O avano das tecnologias para aquisio e armazenamento de dados tem permitido

que o volume de informao gerado em formato digital aumente de forma signicativa. Nesse

contexto, a minerao de textos uma importante abordagem aplicada na transformao

desses itens textuais em conhecimento til. A minerao de textos utiliza alm de algoritmos

prprios, tcnicas j conhecidas e consolidadas como: Indexao, Processamento de

Linguagem Natural e Minerao de Dados. Embora existam abordagens do processo de

minerao de textos que no fazem uso de PLN, a sua utilizao tem incrementado os

resultados obtidos e justificado o esforo computacional adicional.

O Processamento de Linguagem Natural surgiu devido necessidade de

compreenso automtica e comunicao em geral do ser humano com o computador. Trata-se

de um mecanismo criado no somente para extrair as informaes de textos, mas tambm para

facilitar a entrada de dados nos sistemas e a estruturao desses dados. Dependendo do tipo de

sistema e da abordagem de PLN aplicada, existem diversas tcnicas e algoritmos que podem

ser empregados. Uma maneira de descobrir qual destas tcnicas a mais indicada para um

determinado contexto, atravs da realizao de reviso sistemtica.

Diferentemente do mtodo comum de reviso da literatura, a Reviso Sistemtica

possui, como o nome sugere, um conjunto de passos formais e mtodos sistemticos

executados sobre um tpico em particular com a inteno de induzir a identificao, seleo e

produo de evidncias atravs de uma metodologia de pesquisa rigorosa, confivel, imparcial

e passvel de auditagem. Tem tambm a finalidade de integrar resultados experimentais e a

sua aplicao poder enfatizar a resoluo de questes como, por exemplo, qual das tcnicas

de PLN a mais indicada para minerar texto de postagens em redes sociais.

Os sites de redes sociais so servios web que permitem que os indivduos construam

um perfil pblico ou semi-pblico, articulem uma lista de amigos, troquem mensagens,

compartilhem e agregem contedos. A rede social GenNet, por exemplo, est diretamente

relacionada com o desenvolvimento de processos e tecnologias, contextualizados em

ambientes colaborativos, voltados para a promoo de aes de incluso social de indivduos

portadores de doenas genticas com deficincia fsica. Buscando melhorar a colaborao e as

aes com os usurios, esta rede em particular precisa utilizar, por exemplo, tcnicas de

minerao de texto atravs do processamento de linguagem, pois a maior parte das

informaes trocadas na rede est na forma de texto.

25

3 Procedimentos Metodolgicos

Este captulo apresenta a estratgia de ao utilizada por esta pesquisa. A

primeira seo trata da metodologia de reviso sistemtica escolhida para ser

executada visando o alcance dos objetivos definidos. A seo seguinte apresenta

o Protocolo de Reviso Sistemtica.

3.1 Execuo da Reviso Sistemtica

Para o desenvolvimento deste trabalho, optou-se pela implementao de uma reviso

sistemtica como mtodo de pesquisa, visto a sua eficincia em vrios campos da engenharia

de software (MAFRA; TRAVASSOS, 2006). Assim, a reviso sistemtica, conforme

apresentado na seo 2.3, ser desenvolvida tomando por base os trabalhos disponveis em

grandes repositrios internacionais de pesquisas em Cincia da Computao. O guia de

referncia metodolgica de Biochini et al. (2005) foi utilizado para a conduo deste estudo e

sua escolha deve-se ao fato dele ser baseado na proposta inicial de Kitchenham et al. (2004),

pioneira na aplicao de revises sistemticas na engenharia de software, e segue o esquema

apresentado no captulo anterior.

A partir das definies do guia de desenvolvimento de reviso sistemtica

desenvolvido por Biochini et al. (2005), o mtodo utilizado para a execuo deste trabalho

consistiu em trs etapas.

3.1.1. Planejamento

Foram definidos claramente objetivos, questo central e foco da reviso sistemtica,

bem como as especificaes do problema e os termos de busca e fontes atravs dos quais os

estudos primrios foram selecionados para esta pesquisa. Para tal, o protocolo de reviso

sistemtica (apresentado no apndice A) foi criado contendo informaes do tipo critrios de

incluso e excluso de estudos primrios, idioma dos trabalhos (ingls), mtodo de busca

(automtico), tipos de trabalho e definio do procedimento de seleo de trabalhos a fim de

responder as seguintes perguntas:

26

1. Quais tcnicas, algoritmos ou estruturao de dados utilizados pelo PLN esto

sendo aplicadas na minerao de textos?

2. De que forma eles so aplicados?

3. Quais so as vantagens e as limitaes observadas nas tcnicas?

4. Qual a tcnica mais recorrente?

5. Existe alguma experincia do uso de PLN aplicado minerao de textos

postados em redes sociais virtuais?

Aps definio do protocolo, este foi avaliado pelos orientadores para que a string de

busca fosse validada e as questes de pesquisa fossem elaboradas de forma consistente. Nesta

etapa, a string de busca foi retestada nas bases, para garantir a consistncia dos dados

retornados e consequentemente da reviso sistemtica.

3.1.2. Execuo

Todos os trabalhos primrios obtidos atravs da string de busca (Apndice A tabela

4) foram avaliados tomando por base os critrios de incluso e excluso definidos no

protocolo de reviso. Neste processo, verificou-se o contedo dos estudos primrios

considerando a seguinte ordem: ttulo, resumo, concluses e texto completo.

Esta etapa permitiu que fossem selecionados apenas os estudos primrios relevantes

para o contexto desta pesquisa. Foi construda uma lista de estudos, os quais forneceram as

informaes e experincias que foram extradas para que o protocolo de reviso sistemtica

fosse respondido. Neste momento, todos os trabalhos includos nesta lista tiveram o seu

contedo completo analisado, para que nenhuma evidncia ou informao importante fosse

desconsiderada.

Neste ponto, foi necessrio verificar a consistncia da etapa de busca e seleo dos

estudos primrios. Para tanto, os orientadores da pesquisa executaram a string de busca

novamente nos repositrios de estudos primrios, selecionaram uma amostra dos trabalhos

retornados com o intuito de confirmar os resultados obtidos pelo autor.

27

3.1.3. Resultado das Anlises

Aps avaliao da execuo, os resultados foram sumarizados. Para tanto, um

protocolo de apresentao de resultados foi criado, com a inteno de apresentar as

informaes atravs de estruturas na forma de tabelas e grficos para facilitar a compreenso

das concluses.

Alm disso, foram apresentados os comentrios finais da reviso sistemtica,

contendo a quantidade de trabalhos obtidos pela busca nos repositrios e a quantidade

selecionada para a reviso, registro de qualquer tipo de tendncia de invalidao de busca,

seleo e extrao que puderam influenciar os resultados da reviso sistemtica e o contexto

em que o resultado da reviso sistemtica poder ser aplicado.


A reviso sistemtica foi conduzida em trs etapas: planejamento que teve como

marco a avaliao do planejamento, execuo que incluiu tambm uma avaliao da execuo

e apresentao dos resultados. Sendo as etapas de avaliao realizadas em conjunto com os

orientadores.

As definies de como foi implementada a reviso sistemtica est no protocolo de

reviso, o qual contm, com as perguntas a serem respondidas por este trabalho, os termos da

string de busca e as fontes (IEEE e Capes) utilizadas para a identificao de estudos primrios

e os critrios de incluso de artigos e a forma de apresentao dos resultados (grficos, tabelas

e tpicos textuais).

28

4 Tcnicas de Processamento de Linguagem


de Textos

Neste captulo so apresentados os resultados desta pesquisa, as tcnicas de PLN

identificadas nas evidncias publicadas nos estudos primrios, bem como as

vantagens e limitaes das tcnicas. Os grficos e tabelas apresentam a

sumarizao das informaes sobre PLN e minerao de textos.

A execuo da string de busca nas fontes selecionadas para o desenvolvimento desta

pesquisa em 4 de abril de 2012 retornou um total de 74 trabalhos distribudos entre os anos de

2002 e 2011, conforme apresentado na figura 3. O filtro aplicado atravs dos critrios de

incluso e excluso dos estudos primrios ocorreu na seguinte sequencia de leitura:

primeiramente utilizando o ttulo dos trabalhos, em seguinda o abstract, as concluses e por

fim o texto completo, reduzindo o corpus inicial da pesquisa para 24 estudos como poder ser

observado na figura 4.

Atravs dos critrios de incluso e excluso foram retirados trabalhos que tratavam

de resultados referentes a apenas um dos temas deste estudo, somente PLN ou somente

minerao de textos. Tambm foram excludos estudos primrios que faziam somente

referncia e citaes aos temas, que no tratavam de uma tcnica especfica ou cuja aplicao

se dava em um idioma de estrutura diferente do ingls, como o chins e o grego. O ingls foi

o idioma escolhido como critrio de escolha dos estudos primrios, pois os peridicos e

eventos mais relevantes da rea publicam pesquisas principalmente neste idioma.

Uma informao importante a ser considerada que quatro trabalhos potencialmente

relevantes para a pesquisa no estavam acessveis nas bases e por isso no participaram da

etapa de incluso e excluso de estudos da reviso sistemtica. Nestes trabalhos s estavam

disponveis os resumos do texto, ou um esboo de apresentao do contedo.

29

Figura 3 Quantidade total de trabalhos retornados pela string de busca nas bases IEEE e Capes


Figura 4 Quantidade de estudos selecionados pelos critrios de incluso e excluso


Dentre os trabalhos selecionados, 42% (10/24) dos estudos eram de carcter terico

ou conceitual e revises da literatura, 50% (12/24) apresentavam estudos de caso e 8% (2/24)

dos trabalhos descreviam experimentos formais do uso de Processamento de Linguagem

Natural em Minerao de Textos, conforme mostrado na figura 5.

Figura 5 Quantidade de estudos selecionados estudo empregado.


30

Quanto rea de aplicao dos estudos selecionados, 54% (13/24) dos trabalhos so

da rea da Computao enquanto 46% (11/24) dos estudos primrios foram desenvolvidos na

rea mdica (figura 6).

Como evidncias na rea da medicina, podem-se citar os trabalhos relacionados com

a minerao de abstracts de trabalhos publicados em um repositrio de artigos mdicos,

identificao e classificao de termos mdicos, minerao da descrio de protenas, dentre

outras aplicaes.

No caso especfico de aplicao na rea da computao, foram identificados estudos

que exploraram as tcnicas de processamento de linguagem natural associadas minerao de

textos para realizar desambiguao de elementos em textos, anlise semntica, consulta a

banco de dados estruturados atravs de querys em linguagem natural, representao de

imagens atravs de textos extrados de legendas e sumarizao de documentos para

construo semi-automtica de apresentaes.

Figura 6 Quantidade de estudos por rea de aplicao.


De acordo com a base na qual os trabalhos foram encontrados, os anais de

conferncias forneceram 54% (13/24) e os peridicos 46% (11/24) dos estudos primrios

selecionados pelo critrio de incluso e excluso da reviso sistemtica.

Foram identificadas pesquisas sobre o tema em 11 pases, sendo 42% (10/24) dos

trabalhos de autoria dos Estados Unidos, 17% (4/24) da Inglaterra, 8% (2/24) da India e 29%

(7/24) dos trabalhos somados por Frana, Brasil, Japo, China, Alemanha, Equador e Irlanda

(um trabalho para cada pas, ou seja, 4%). Por fim, em 4% (1/24) dos trabalhos no foi

identificada a localizao geogrfica dos pesquisadores. Esta informao foi derivada atravs

31

da consulta da instituio a qual os autores do estudo estavam filiados. A Figura 6 apresenta a

distribuio dos estudos primrios por pas de origem.

Figura 6 Distribuio dos estudos por pas.


4.1 Foco das Pesquisas Primrias

Os trabalhos selecionados para a reviso sistemtica fazem uso de Processamento de

Linguagem Natural para minerar textos com a inteno de prover o desenvolvimento de

diversas atividades. Dentre estas atividades, esto a extrao de conhecimento em dados do

tipo textual, representao do contedo de documentos, classificao de textos, busca em

textos e outros processos semnticos. Deve-se ressaltar que estes processos no

necessariamente ocorrem de forma isolada, tendo sido encontradas evidncias de experincias

que combinam estas atividades, dependendo do resultado desejado.

4.1.1 Extrao de conhecimento em textos

A extrao de conhecimento em textos uma evidncia que pode ser descrita como a

atividade na qual os pesquisadores procuram retirar informaes de um documento para

aplicao em um dado contexto e a identificao de padres em documentos, por exemplo,

que termo est geralmente associado a determinado tema, ou contedo.

Neste processo deve-se considerar a importncia do PLN para a desambiguao de

termos, a combinao de sinnimos e a importncia de palavras que descrevem o mesmo

sentido. Extrair conhecimento em textos requer elementos tericos da rea da Lingustica, no

32

sentido de que palavras pertencentes a uma sentena devem ser capturadas sem perder a sua

representatividade lxica, sinttica e semntica no contexto.

Dentre as experincias de extrao de conhecimento, foram encontradas aplicaes

de processamento de textos para minerar abstracts de trabalhos cientficos a fim de descobrir

a relevncia de determinada pesquisa, alm de evidncias de utilizao de PLN para

reconhecimento, interpretao e processamento de opinies e sentimentos escritos em

linguagem natural.

4.1.2 Representao do contedo de documentos

Considerando que a maior parte dos documentos disponvel na web processvel,

mas no entendveis por mquinas, os estudos primrios apontam que a atividade de

representao da informao relevante em textos, continua sendo uma tarefa complicada. Um

problema comum deste tpico a representao de um documento extenso atravs de apenas

uma frase, ou um conjunto de termos que determinem o contedo do texto.

Neste contexto, utiliza-se geralmente uma abordagem na qual palavras-chave

frequentemente encontradas no texto pode representar o contedo de um documento por

completo. No entanto, essa tcnica conhecida como keywording pode apresentar problemas,

principalmente se for considerado o relacionamento direto entre a incidncia de uma palavra

no contexto e a sua importncia, alm do efeito produzido pela ambiguidade dos termos do

documento.

Ao se aplicar tcnicas de Processamento de Linguagem Natural para minerar textos a

fim de representar o contedo presente em documentos, pode-se realizar indexao dos

termos de forma mais significativa, reduzindo consideravelmente o grau de ambiguidade entre

as palavras encontradas e aumentando a eficcia da recuperao da informao necessria na

representao dos documentos.

4.1.3 Classificao de textos

Pode-se definir a atividade de classificao de textos, como a distribuio de um

conjunto de documentos em categorias distintas, dependendo da informao contida no texto.

Esta evidncia envolve as pesquisas da rea mdica que na ltima dcada apresentou um

33

considervel crescimento de novos termos (palavras), criados para a definio de conceitos

recm-identificados ou variaes de termos j existentes na literatura. Nesta realidade, a

terminologia um elemento essencial, pois atravs dela pode-se desenvolver o estudo dos

termos e as suas aplicaes em contextos especficos.

Este tipo de estudo permite que palavras possam ser reconhecidas, conectadas e

organizadas em categorias de termos formando classes de palavras e estruturas do tipo rede de

termos, em sistemas de armazenamento de produes bibliogrficas, por exemplo. No

entanto, para que novos termos descobertos sejam adicionados a uma estrutura j existente, a

classificao baseada no significado o primeiro passo para a construo de estruturas

semnticas que possuam associaes entre as palavras atravs de links para identificao de

termos correlacionados e generalizao de sinnimos na mesma classe.

Assim, tcnicas automticas de reconhecimento e classificao de termos podem

auxiliar o processo de criao e manuteno de sistemas de armazenamento de documentos

atravs da especificao da terminologia dos termos, sobretudo na rea mdica, na qual

tcnicas manuais no conseguem lidar com a classificao do nmero crescente de termos e

da estrutura complexa de terminologias biomdicas.

4.1.4 Busca de informaes em textos

Na busca de conceitos e informaes em textos, as abordagens para a captura da

informao semntica ainda envolvem intermedirios humanos, exigindo tarefas como a

etiquetagem de termos. Entretanto, a utilizao de tcnicas de PLN e minerao de textos

pode melhorar o processamento de investigao de informaes em dados textuais.

A evidncia encontrada neste contexto pela reviso sistemtica trata de um sistema

de perguntas e respostas que se utiliza da minerao e do PLN para buscar em um documento

de texto a resposta mais coerente, dada uma determinada pergunta. A busca ocorre dentro do

texto e identifica que pargrafo pode ser utilizado como resposta da questo.

Desta forma, ao invs de buscas feitas por palavras-chave, podem ser buscados

termos relacionados com os de uma consulta realizada, considerando a semntica e tambm

questes de ambiguidade de palavras e sinnimos, dentre outras caractersticas que possam

deixar a busca mais parecida com a linguagem natural.

34

4.2 Respostas para as questes da reviso sistemtica

Nesta seo so apresentadas as respostas para as perguntas definidas no protocolo

de reviso sistemtica, que foram definidas atravs das evidncias observadas nas

experincias publicadas nos estudos primrios selecionados para a reviso.

4.2.1 Quais so as tcnicas, algoritmos ou estruturao de dados

utilizados pelo PLN esto sendo aplicadas na minerao de

textos?

Por meio da anlise das evidncias encontradas na metodologia, nos resultados e nas

concluses dos estudos primrios, pde-se elaborar uma lista (Tabela 1) de tcnicas,

algoritmos e estruturao de dados usados em PLN e aplicados na minerao de textos para

resolver questes de extrao, representao, busca e classificao dos estudos primrios.

No entanto, deve-se salientar que nem todos os trabalhos primrios mostram de

forma detalhada o uso da tcnica, muitas vezes ocultando informaes como a forma com a

qual os dados textuais so estruturados ou como a tcnica foi avaliada e escolhida para o

estudo.

A sigla PLNMT utilizada neste estudo para indicar a ordem a qual o artigo foi

includo atravs dos critrios da reviso sistemtica.

Tabela 1 Tcnicas identificadas pela reviso sistemtica.

Tipo Nome Trabalho primrio

Tcnica Stemming [PLNMT 8]

Vetores [PLNMT 1] [PLNMT 4]

[PLNMT 12]

Raciocnio Baseado em Casos [PLNMT 7]

Term Connection [PLNMT 6]

Teoria da Possibilidade [PLNMT 13]

Latent Semantic Indexing [PLNMT 14]

Algoritmo Agrupamento de Markov [PLNMT 12]

35

Naive Bayes [PLNMT 7] [PLNMT 10]

Estruturao Gramtica Livre de Contexto [PLNMT 5]

rvore [PLNMT 3]

Ontologia [PLNMT 1] [PLNMT 2] [PLNMT 3]

[PLNMT 7] [PLNMT 9]

[PLNMT 11] [PLNMT 14] [PLNMT 15]

[PLNMT 16] [PLNMT 17]

[PLNMT 18] [PLNMT 19] [PLNMT 20]




4.2.2 De que formas so aplicadas?

Stemming

Stemming uma tcnica a aplicada s listas de palavras-chave para remover termos

no descritivos e concentrar palavras relacionadas em um determinado contexto. Assim, o

texto pr-processado para a remoo de capitalizao, pontuao e strings que contm

caracteres especiais. Permite inferir diferentes formas para uma mesma palavra mapeada e

com isso possvel encontrar mais informaes sobre um mesmo tpico sem a necessidade do

uso de variaes lingusticas (plural, flexo de gnero e nmero, entre outros).

Presente em somente um estudo, do total de pesquisas analisadas pela reviso

sistemtica, pode-se observar a utilizao desta tcnica em experincias que visam extrair

informaes e padres em textos atravs do mapeamento e anlise da frequncia com que

termos so encontrados em documento.

Um exemplo simples da aplicao da tcnica a reduo dos termos "fishing",

"fished", "fish", "fisher" para o radical comum "fish".

36

Vetores

Seja C um conjunto finito de conceitos, ento um vetor conceitual V a combinao

linear desses elementos. Por exemplo, os diferentes significados do elemento porta no vetor V

podem ser projetados pelos seguintes conceitos (CONCEITO [intensidade da ocorrncia]):

V(porta) = (ABERTURA [0,3], BARREIRA [0,31], PORTO [0,33], EXTERIOR [0,35],

INTERIOR [0,37]). Na prtica, o maior conceito o que tem maior significado para o

contexto e podem ser utilizadas as operaes comuns entre vetores.

Esta tcnica eficiente em atividades de classificao temtica de termos, podendo

ser aplicada na substituio de palavras e na aproximao semntica, pois possui resultados

bastante satisfatrios com sinnimos e antnimos de palavras. Alm disto, a aplicao dos

vetores pode acontecer de forma isolada e tambm apoiado a outras tcnicas como o

algoritmo de naive bayes e a aplicao de regras.

Raciocnio Baseado em Casos

Por ser baseada na lembrana de experincias especficas que possam ser teis para

que o problema (caso) a ser resolvido, nesta tcnica aplica-se a hiptese de que problemas

similares tendem a ter solues semelhantes. Portanto, a avaliao dessa similaridade a

chave desta tcnica. A avaliao depende do domnio do problema e da representao, aonde

cada caso corresponde a uma resposta e necessrio aproximar matematicamente as solues.

Raciocnio baseado em casos particularmente eficiente para resoluo de

problemas de classificao de termos, sobretudo quando o contexto rene elementos da

linguagem natural. Pode ser usado como um mecanismo inteligente para processamento de

texto, minerao e recuperao da informao.

Esta tcnica esteve associada ao uso de ontologias e do algoritmo naive bayes e foi

observada em apenas uma pesquisa primria que tratou da classificao de documentos de

uma base mdica.

Term Connection

Atravs desta tcnica o processamento ocorre primeiramente com o reconhecimento

da estrutura do texto, depois com a execuo da desambiguao das palavras e, por fim, com

o significado semntico dos termos. A Term Connection fundamentada no princpio de que

37

se deve averiguar significados semnticos inerentes dos termos ao fazer anlise do contexto

semntico de acordo com a ordem da associao das palavras.

A tcnica denotada por P = {ta, R, tb}, sendo ta e tb a representao dos termos da

sentena e ta a palavra que aparece antes de tb. Neste esquema, R o relacionamento entre

estes dois termos e representa o significado da relao dos termos num contexto especfico.

Assim possvel determinar quais so os termos principais e quais so os termos

subordinados em uma sentena qualquer.

A Term Connection foi uma tcnica observada em apenas um estudo primrio, dentre

o total coletado pela reviso sistemtica, e foi associada a estruturas como rvores, grafos e

mquinas de estado, aplicada no contexto da representao da informao contida em

documentos.

Teoria da Possibilidade

Esta tcnica foi utilizada em apenas um estudo primrio, no processo de extrao do

significado e das informaes contidas em documentos em linguagem natural que pertencem

a um conjunto de domnios especficos. Os textos em linguagem natural so divididos em trs

unidades (sujeito - verbo objeto) que so representadas na forma de palavras-chave e

posteriormente agrupadas como eventos.

A tcnica analisa, por exemplo, dadas duas sentenas O ser humano um primata

e Ns podemos ser felizes, a ocorrncia do termo ser nos dois eventos e a probabilidade

do termo fazer parte do conjunto de sujeitos ou de predicados das sentenas encontradas no

texto.

Latent Semantic Indexing

A tcnica encontrada em apenas um estudo primrio usada para lidar com

imperfeies deixadas pelas ontologias no processo de extrao de conhecimento. O texto

estruturado de modo a eliminar todos os tipos de pontuao, formando assim um documento

somente com termos ou palavras-chave. Estas palavras so utilizadas para formar uma matriz

de termos e a cada termo atribudo um peso para mostrar a importncia desse elemento.

38

Algoritmo de Agrupamento de Markov

As evidncias consideram este algoritmo muito rpido e escalvel, sendo aplicado

como forma de evitar o uso direto de PLN. O algoritmo foi aplicado para representar o

relacionamento entre os termos atravs do agrupamento de grafos formados por termos

provenientes de vetores e, desta forma, extrair informaes de documentos e criar uma lista

indexada com dados de cada texto processado. Este algoritmo complementado por outras

tcnicas de PLN, como o raciocnio baseado em casos e o algoritmo de classificao nayve

bayes, e foi observado em apenas dois estudos primrios.

Algoritmo Naive Bayes

O algoritmo de classificao Naive Bayes aplicado para maximizar a probabilidade

de um determinado termo poder ser associado a uma classe especfica baseada nas suas

caractersticas e na caracterstica da classe. A aplicao do algoritmo foi observada em dois

estudos primrios, e em ambos foi utilizado como uma abordagem complementar de outras

tcnicas, como apoio da tcnica de raciocnio baseado em casos ou como fator de otimizao

dos resultados obtidos por ontologias.

Ontologias

No processamento de linguagem natural atravs de ontologias, as palavras so

agrupadas e classificadas segundo uma ontologia de domnio (domain-specific ontology), de

forma que as sequncias que tiverem o mesmo significado apresentem a mesma

representao. As tarefas que envolvem o uso de ontologias em processamento de textos so:

Extrao do domnio relevante da terminologia e sinnimos;

Descoberta de conceitos que podem ser considerados como abstraes do pensamento

humano e derivar uma hierarquia de conceitos para organiza-los;

Extenso da hierarquia de um conceito existente adicionando novos conceitos;

Aprendizagem no-taxonmica de relacionamentos;

Extrao do domnio relevante da terminologia e sinnimos;

Extrao de instncias de relaes e conceitos;

39

Descoberta de outras relaes axiomticas ou regras que envolvem conceitos e

relaes.

Foi observado que outras tcnicas so utilizadas em conjunto com as ontologias,

como aconteceu com as tcnicas de raciocnio baseado em casos e a tcnica latent semantic

indexing. A ontologia pode utilizar tambm abordagens complementares ao seu escopo, como

o algoritmo de classificao naive bayes e as rvores semnticas e outras tcnicas ou

envolvimento humano para estruturao de dados.

rvores

A rvore aplicada para representar relacionamentos lgicos entre as palavras em

uma sentena. Atravs dos estudos primrios pde-se perceber que este tipo de estrutura

associado a ontologias de domnio pode ser utilizado para extrair informaes de um

determinado contexto.

Gramtica Livre de Contexto

As regras da Gramtica Livre de Contexto so usadas como analisador para detectar

frases e termos-chave que possam representar um documento de texto, dado que a maioria das

estruturas do texto de linguagem natural pode ser eficazmente descrita usando gramtica livre

do contexto.

Como as palavras podem ter mltiplos sentidos (como substantivo, verbo, adjetivo),

o analisador deve consultar todas as combinaes possveis de sentidos dos termos, antes de

realizar anlises em nvel de sentena. Neste esquema, os espaos em branco podem ser

usados como delimitadores.

Um exemplo simples de uma regra que pode ser criada para representar uma

sentena atravs da gramtica livre de contexto S-> Art Subst V Adj. Ou seja, qualquer

frase formada por um artigo, seguido de um substantivo e posteriormente de um verbo e um

adjetivo, pode ser representada por esta regra. No entanto, seria necessria a criao de vrias

outras regras que processassem as diversas formas em que as sentenas poderiam aparecer no

documento.

40

4.2.3 Quais so as vantagens e as limitaes observadas pelas

pesquisas primrias?

Embora alguns autores no apresentem explicitamente as vantagens e limitaes do

uso das tcnicas quando aplicadas para resolver questes de processamento de textos, foi

possvel analisar os resultados e as concluses dos estudos primrios e extrair algumas

informaes relevantes neste contexto.

A Tabela 2 abaixo mostra resumidamente as vantagens e limitaes das tcnicas

usadas nos trabalhos analisados. Apesar de apresentar vantagens relevantes, algumas das

tcnicas identificadas s foram aplicadas em um nico estudo primrio, ou seja, existem

poucas evidncias que comprovem realmente o efeito da tcnica no contexto do

processamento de linguagem natural, diferentemente no caso de ontologias (tcnica recorrente

em muitos estudos).

Pode-se, no entanto, apresentar uma lista mais detalhada de vantagens e

desvantagens de algumas tcnicas, segundo os relatos nos estudos primrios:

Apesar de oferecer uma grande reduo do conjunto de dados textuais a serem

processados, stemming uma tcnica que necessita de maior investigao, pois ao

final do seu processamento muitos radicais idnticos podero ser produzidos,

principalmente quando verbos so processados. Alm disso, outro problema que pode

surgir a formao de radicais que no representem o conjunto total de palavras

derivadas do termo;

A tcnica que utiliza vetores funciona muito bem para vetores que foram calculados a

partir de definies hipernicas. Mas para termos muito gerais a eficincia do vetor

reduzida;

Mesmo exigindo muitos recursos e esforos, a tcnica de raciocnio baseado em casos

tem uma grande vantagem que a capacidade de aprender atravs do armazenamento

de problemas de classificao recentemente resolvidos;

A tcnica baseada em term connection coloca nfase na anlise semntica, comeando

com a anlise de sentena e, posteriormente, do discurso, sendo capaz de processar

aparies irregulares da linguagem em textos reais como da poesia;

41

A aplicao da teoria da possibilidade apresentou bons resultados no estudo primrio,

porm o problema dos dados esparsos foi observado. Este problema comum em

tcnicas estatsticas usadas em PLN, pois mesmo grandes colees de texto podem no

gerar estimativas confiveis da probabilidade de eventos;

O algoritmo de agrupamento de Markov tem como vantagens o fato de ser no-

supervisionado, rpido e escalvel. No entanto, o algoritmo ao ser aplicado adequado

a um contexto especfico de dados, podendo se tornar ineficiente em outro;

No caso das ontologias, pode-se inferir que atravs delas a informao necessria e

adquirida atravs de textos em linguagem natural pode ser armazenada de modo no

ambguo em formato padronizado, o que descreve o conhecimento em um modelo

formal. Alm disso, ontologias permitem a indexao semntica e a recuperao da

informao, fornecendo meios de fuso de dados por sinnimos ou conceitos definidos

usando vrias descries. A tcnica pode apresentar, no entanto, necessidade de

melhoria contnua no sentido de aprimorar o modelo em aspectos de escopo,

relacionamentos ou granularidade.

Tabela 2 Vantagens e limitaes das tcnicas identificadas.

Nome Vantagem Limitao

Stemming Reduo do tamanho de

dados textuais

Pouca clareza e necessidade

de maior investigao

Vetores Bons resultados para termos

hipernimos

Pouco eficiente para

contextos genricos

Raciocnio Baseado

em Casos

Aprendizagem incremental

Muitos recursos requeridos

Term Connection nfase na semntica No identificado

Teoria da

Possibilidade

Boa performance

Dados esparsos

Latent Semantic

Indexing

Lida com imperfeies da

ontologia

No identificado

Agrupamento de

Markov

Mtodo no-supervisionado

Dependente de contexto

Naive Bayes Potencializa o poder de

outras tcnicas

No identificado

Gramtica Livre de

Contexto

Mais eficiente que mtodos

estatsticos

No aplica semntica aos

dados

rvore

No identificado Relevante quantidade de

erros identificados

Ontologia

Flexibilidade de aplicao

em diversos contextos:

extrao, classificao,

Pode requerer melhoria

contnua

42

busca, dentre outros. Fonte: (Elaborada pelo autor, 2012)

Alm das evidncias apresentadas acima, pode-se concluir que outra grande

vantagem do uso de ontologias est no fato da tcnica possuir vrias experincias publicadas

em diversos aspectos da minerao de textos em linguagem natural ao longo da ltima

dcada. Enquanto isso, outras tcnicas no foram muito exploradas no mesmo perodo, apesar

de apresentarem relevantes vantagens.

4.2.4 Qual a tcnica mais recorrente?

Pode-se perceber que a ontologia a tcnica de PLN mais utilizada para minerao

de texto na ltima dcada (tabela 3), sendo aplicada em quase todos os anos durante o perodo

composto entre 2001 e 2011. Neste intervalo, a tcnica foi aplicada tanto como nica

abordagem, quanto foi complementada com outras tcnicas identificadas.

Outras abordagens identificadas nos estudos primrios, apesar de oferecerem grandes

vantagens e resultados satisfatrios, no possuem tanta incidncia de utilizao quantos as

ontologias. Alm disso, em alguns casos como das tcnicas de stemming, rvores e a

gramtica livre de contexto, a aplicao ocorreu apenas uma vez e no incio do perodo

compreendido pelo estudo.

Tabela 3 Distribuio das tcnicas por ano.

Tcnica 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011

Stemming

Vetores

RBC

Term Connection

T. Possibilidade

LSI

Markov

Naive Bayes

GLC

rvore

43

Ontologia


Assim, as evidncias mostram que as ontologias tm sido frequentemente utilizadas

ao longo dos 10 anos compreendidos pela reviso sistemtica, sendo que, nos ltimos 3 anos,

as pesquisas identificas envolveram somente a aplicao desta tcnica. As ontologias foram

aplicadas em mais da metade dos trabalhos analisados para a extrao de informao de dados

no-estruturados, para representao do contedo de textos, para realizar buscas em

documentos e tambm no processo de classificao de textos.

A razo para a popularidade da aplicao tcnica para minerar textos em linguagem

natural o fato das ontologias proverem um vocabulrio para representao do conhecimento

e um conjunto de conceitos que o sustenta, impedindo desta maneira que interpretaes

ambguas ocorram.

Alm disso, a ontologia permite que uma definio exata da informao seja

estabelecida, possibilitando assim sua escrita em linguagem formal, evitando que espaos

semnticos existentes na linguagem natural sejam processados de modo equivocado. Ou seja,

uma determinada palavra mapeada em uma ontologia de domnio especfico no ter outro

significado.

4.2.5 Existe alguma experincia do uso de PLN aplicado minerao

de textos postados em redes sociais virtuais?

Ao longo da ltima dcada no foram encontradas pesquisas que abordassem o uso

de tcnicas de processamento de linguagem natural para minerar textos postados em redes

sociais virtuais. No entanto, mesmo no tendo sido evidenciada diretamente a aplicao das

tcnicas de PLN especificamente em redes sociais, existe uma evidncia que apresenta

informaes de relativamente importncia neste contexto.

O trabalho [PLNMT 21] trata de um paradigma conhecido como Sentic Computing,

um novo paradigma de minerao e anlise de opinio e sentimento que explora tcnicas da

Inteligncia Artificial e da Web Semntica para melhor reconhecer, interpretar e processar as

opinies e sentimentos em um texto de linguagem natural. Baseado em ontologias, o

processamento textual interpreta os mais comuns indicadores de valncia afetiva contidos em

44

linguagem natural, como por exemplo, pontuao especial, palavras de exclamao, advrbios

de grau e emoticons. A tcnica foi utilizada em uma experincia para extrair informao

estruturada diretamente a partir de opinies de pacientes de um site.

Atravs da anlise deste estudo conclui-se que este mtodo baseado em ontologias

poderia ser utilizado para minerar postagens em redes sociais virtuais, uma vez que a forma

de interao dos usurios em redes sociais virtuais acontece de forma natural, aonde

predominam opinies e sentimentos nos textos postados em fruns de discusso, comunidades

ou mensagens trocadas diretamente com outro usurio.

Para tal, pode-se utilizar a estrutura de modo a construir conceitos e fornecer, para

cada um deles, a freqncia relativa e a ocorrncia do conceito no texto, sua conotao

(positiva ou negativa), e o grau de intensidade com que o conceito expresso.


A execuo da string de busca nas fontes selecionadas para o desenvolvimento desta

pesquisa em 4 de abril de 2012 retornou um total de 74 trabalhos distribudos entre os anos de

2002 e 2011. O filtro realizado atravs dos critrios de incluso e excluso dos estudos

primrios reduziu o corpus inicial da pesquisa com 24 estudos.

Os trabalhos selecionados para a reviso sistemtica fazem uso de Processamento de

Linguagem Natural para minerar textos com a inteno de prover o desenvolvimento de

diversas atividades como a extrao de conhecimento em dados do tipo textual, representao

do contedo de documentos, classificao de textos, busca em textos e outros processos

semnticos.

Por meio da anlise das evidncias encontradas na metodologia, nos resultados e nas

concluses dos estudos primrios pde-se elaborar uma lista de tcnicas, algoritmos e

estruturao de dados usados em PLN e aplicadas na minerao de textos: stemming, vetores,

raciocnio baseado em casos, term connection, teoria da possibilidade, latent semantic

indexing, agrupamento de Markov, naive bayes, gramtica livre de contexto, rvores e

ontologias.

Destas tcnicas, a ontologia se mostrou a mais eficiente, primeiramente por ter sido

aplicada em diversos contextos ao longo de uma dcada e segundo pelas suas caractersticas,

45

sendo capaz de armazenar textos de modo no ambguo em formato padronizado e de realizar

a indexao semntica e a recuperao da informao, fornecendo meios de fuso de dados

por sinnimos ou conceitos definidos. No entanto, a tcnica pode apresentar a necessidade de

melhoria contnua no sentido de aprimorar o modelo em aspectos de escopo, relacionamentos

ou granularidade.

No foi identificada nenhuma experincia de aplicao de PLN e minerao de

textos para redes sociais virtuais, porm uma importante evidncia foi observada com o uso

de ontologias aplicadas no contexto de Sentic Computing para minerao de opinies e

sentimentos de usurios em um site, informaes relevantes ao se considerar a minerao de

publicaes em redes sociais virtuais as quais ocorrem de modo semelhante.

Assim, pde-se perceber que a ontologia a tcnica de PLN mais utilizada para

minerao de texto na ltima dcada, sendo aplicada em quase todos os anos durante o

perodo composto entre 2001 e 2011.

46

5 CONCLUSO

Neste captulo apresentam-se as consideraes finais sobre o trabalho

desenvolvido nesta monografia. Na seo 5.1 so apresentas as consideraes

finais sobre o trabalho. Na seo 5.2 so descritas as contribuies desta

monografia e na seo 5.3 algumas propostas para trabalhos futuros.

5.1 Consideraes finais

Esta reviso sistemtica foi realizada tendo com base os 24 estudos primrios

selecionados atravs de critrios de incluso e excluso dentre 74 trabalhos que foram

retornados pela string de busca. As perguntas de pesquisa da reviso sistemtica

definidas no protocolo foram todas respondidas, exceto no caso do uso de tcnicas de

processamento de linguagem natural na minerao de redes sociais virtuais. Neste caso

particular, no foi identificado nenhum estudo que tratasse exclusivamente deste tema,

porm um dos trabalhos fazia grande referncia a um contexto similar ao das redes

sociais virtuais, a minerao de opinio e sentimentos.

Foram identificadas um total de 11 tcnicas utilizadas para extrao de padres

e conhecimentos em textos, bem como para a representao de contedo, busca e

classificao de termos. Dentre estas tcnicas, a que apresentou maiores vantagens foi a

ontologia, aplicada para processar textos em linguagem natural durante toda a dcada

compreendida por este estudo. A tcnica pode, inclusive, ser aplicada para minerao de

textos de redes socias, um contexto em que predominam postagens com opinies e

expresses de sentimento.

Para tal, deve-se considerar a importncia do planejamento do domnio da

ontologia, de modo a evitar a presena de palavras ambiguas. A melhor forma de desviar

os problemas com ambiguidade de termos no processamento de linguagem natural

criando um domnio consistente, no qual os conceitos existentes e as suas relaes

possam representar cada termo de forma nica, evitando os casos com lacunas existentes

na natureza da semntica das palavras.

47

Pode-se considerar ainda o uso de tcnicas complementares que possam ampliar

a capacidade do processamento de textos com ontologias. O uso do algoritmo de

classificao nayve bayes poder aumentar a probabilidade de um determinado termo

pertencer a um domnio. A tcnica latent semantic indexing capaz de lidar com

algumas das imperfeies geradas pela definio do domnio da ontologia. E finalmente,

a tcnica term conection que pode lidar com irregularidades nos textos. Neste ltimo

caso a associao com as ontologias poderia produzir melhores resultados no

processamento de textos de redes sociais, no entanto faz-se necessaria a elaborao de

um estudo para investigar essa combinao de tcnicas.

Ainda deve-se destacar a grande incidncia de pesquisas em minerao de

textos e processamento de linguagem natural na rea mdica, cujo principal interesse est

voltado para a extrao automtica de conhecimento em estudos empricos da rea e a

classificao e organizao das bases textuais que guardam os trabalhos e experimentos

publicados.

Uma limitao recorrente nesta pesquisa foi contedo disponibilizado pelos

autores nos textos dos estudos primrios, nos quais muitas vezes as informaes sobre as

tcnicas foram ocultadas ou transmitidas de forma incompleta. Isto resultou em poucos

dados para elaborar uma discusso mais aprofundada em alguns casos particulares, como

na aplicao de rvores e do algoritmo de Markov para processar linguagem natural.

5.2 Contribuies deste trabalho

Este trabalho apresentou como principal contribuio uma viso geral da

aplicao de tcnicas diversas para o processamento de linguagem natural e minerao

de textos. Neste sentido, apresentada uma lista com todas as tcnicas identificadas, o

contexto, a forma de aplicao e estruturao de dados e suas tendncias, alm de

vantagens e limitaes do uso de cada tcnica.

Os resultados da pesquisa oferecem ainda contribuio para as reas de PLN,

minerao de textos e tambm para o universo das redes sociais virtuais, no que se refere

a extrao de postagens feitas por usurios, identificao de padres de relacionamento

ou recomendao de contedo. Alm disso, os achados deste estudo podem se utilizados

48

como guia na seleo e aplicao de tcnicas de PLN para minerao de textos em

diversas situaes.

5.3 Proposta para trabalhos futuros

A continuidade deste estudo prev ainda a execuo da mesma string de busca

em outras bases conceitudas para identificao de mais trabalhos e posteriormente de

mais evidncias que complementem os resultados obtidos at o momento. Alm disso,

essa atividade prev a busca manual em conferncias especficas da rea de PLN e

minerao de textos e a incluso das pesquisas realizadas em 2012, e tambm de estudos

publicados em portugus.

Em longo prazo pretende-se intensificar as pesquisas na rea criando estratgias

prticas e especficas de aplicao dos resultados desta reviso sistemtica. Para tal,

sero realizados estudos para criao e aplicao de ontologias de domnio para

minerao de textos em uma rede social especfica e tambm em documentos de

requisitos de software. Alm disso, sero definidos estudos que possam produzir

resultados sobre o uso combinado de ontologias com outras tcnicas complementares

como nayve bayes, latent semantic indexing e term conection.

Por fim, outras discusses devero ser criadas para ampliar o entendimento do

uso das outras tcnicas apresentadas neste trabalho, sobretudos aquelas que apresentaram

bons resultados nas evidncias dos estudos primrios e que, no entanto, no foram

exploradas com tanta intensidade na ltima dcada. Neste contexto pode-se destacar a

tcnica stemming e a gramtica livre de contexto.

49

REFERNCIAS

ARANHA, C. N. Uma Abordagem de Pr-Processamento Automtico para Minerao

de Textos em Portugus: Sob o Enfoque da Inteligncia Computacional. Tese (Doutorado

em Engenharia Eltrica) Pontifica Universidade Catlica do Rio de Janeiro PUC - Rio, Rio de Janeiro, 2007.

BIOLCHINI, J.; MIAN, P. G.; NATALI, A. C. C.; TRAVASSOS, G. H. Systematic Review

in Software Engineering. . Relatrio Tcnico (Programa de Engenharia de Sistemas e

Computao) Universidade Federal do Rio de Janeiro UFRJ Rio de Janeiro, 2005.

BOYD, Danah M.; ELLISON, Nicole B. Social Network Sites: Definition, History, and

Scholarship. Journal of Computer-Mediated Communication. V. 13, n. 1, article 11, 2007.

BRITO, R. F.; PEREIRA, A. T. C. Um Estudo para Ambientes Colaborativos e suas

Ferramentas. Anais do Congresso Nacional de Ambientes Hipermdia para Aprendizagem.

Anais... Santa Catarina, 2004.

BULEGON, H.; MORO, C. M. C. Minerao de texto e o processamento de linguagem

natural em sumrios de alta hospitalar. Journal of Health Informatics, 2010.

CAVALCANTI, T. R; SILVA, F. Q. B. Historical, Conceptual, and Methodological Aspects

of the Publications of the Brazilian Symposium on Software Engineering: A Systematic

Mapping Study. Anais do 25th Brazilian Symposium on Software Engineering (SBES).

Anais... So Paulo, 2011.

CERQUEIRA, A. D. O.; DINIZ, A. M.; DORTA, C.; KUNIYOSHI, P. S. Implementao de

Buscas Utilizando Linguagem Natural Atravs de Algoritmos Adaptativos. Trabalho de

Concluso de Curso - Escola Politcnica da Universidade de So Paulo, 2010.

CORREIA NETO, J.S.; SILVA, A.A.B.; FONSECA, D. Sites de Redes Sociais Corporativas:

entre o pessoal e o profissional. In: EnADI, 3., 2011, Porto Alegre-RS. Anais. Porto Alegre-

RS, III EnADI, 2011.

GOMES, R. M. Minerao de Textos na Desambiguao de Sentido de Palavras Dirigida

por Tcnicas de Agrupamento sob o Enfoque da Minerao de Textos. Dissertao

(Mestrado em Engenharia Eltrica) Pontifica Universidade Catlica do Rio de Janeiro PUC - Rio, Rio de Janeiro, 2009.

KITCHENHAM, B.; DYB, T.; JRGENSEN, M. Evidence-based Software Engineering.

26th International Conference on Software Engineering, (ICSE 04), Proceedings. IEEE, Washington DC, USA, pp 273 281, 2004.

LADEIRA, A. P. Processamento de Linguagem Natural: Caracterizao da Produo

Cientfica dos Pesquisadores Brasileiros. Tese (Doutorado em Cincia da Informao)

Universidade Federal de Minas Gerais, Belo Horizonte, 2010.

MACHADO, A. P.; FERREIRA, R.; BITTENCOURT, I. I.; ELIAS; E.; BRITO, P.; COSTA,

E. Minerao de Texto em Redes sociais virtuais Aplicada Educao a Distncia. Revista

Digital da CVA - Ricesu, ISSN 1519-8529, v. 6, n. 23, Julho de 2010.

50

MAFRA, S. N.; TRAVASSOS, G. H. Estudos Primrios e Secundrios Apoiando a Busca

por Evidncia em Engenharia de Software. Relatrio Tcnico (Programa de Engenharia de

Sistemas e Computao) Universidade Federal do Rio de Janeiro UFRJ Rio de Janeiro, 2006.

MIAN, P.; CONTE, T.; NATALI, A.; BIOLCHINI, J.; MENDES, E.; TRAVASSOS, G. H.

Lessons Learned On Applying Systematic Reviews To Software Engineering. 3rd

International Workshop Guidelines For Empirical Work In the Workshop Series On Empirical Software Engineering (Wsese). Proceedings, 2005.

OLIVEIRA, A. S.; MOTTA, R. A. S. M.; CUNHA, G.; SANTOS, R. M.; GOLDSCHMIDT,

R. R. Minerao de textos: uma experincia usando TMSK e RIKTEXT. RevISTa Publicao tcnico-cientfica do Instituto Superior de Tecnologia em Cincias da Computao

do Rio de Janeiro, 2011.

PASSOS, E.; ARANHA, C. A Tecnologia de Minerao de Textos. RESI - Revista

Eletrnica de Sistemas de Informao, n. 2, 2006.

REZENDE, S. O.; MARCACINI, R. M.; MOURA, M. F. O uso da Minerao de Textos para

Extrao e Organizao No Supervisionada de Conhecimento. Revista de Sistemas de

Informao da FSMA n. 7 (2011) pp. 7-21.

SANTOS, R. E. S.; CORREIA NETO, J. S.; VILAR, G. Relatrio (Projeto de Extenso)

Departamento de Informtica da Universidade Federal Rural de Pernambuco DEINFO - UFRPE- Recife, 2011.

SCHNEIDER, M. O. Processamento de Linguagem Natural (PLN). Relatrio (Curso de

Mestrado em Sistemas de Computao) Pontifcia Universidade Catlica de Campinas - PUC-

Campinas, So Paulo, 2001.

SILVA, T. M. S.. Extrao de Informao para Busca Semntica na Web Baseada em

Ontologias. Dissertao (Mestrado em Engenharia Eltrica) Universidade Federal de Santa

Catarina UFSC, Florianopolis 2003.

SOARES, F. A. Minerao de Textos na Coleta Inteligente de Dados na Web. Dissertao

(Mestrado em Engenharia Eltrica) Pontifica Universidade Catlica do Rio de Janeiro PUC - Rio, Rio de Janeiro, 2008.

TEIXEIRA FILHO, J. Comunidades Virtuais. Rio de Janeiro, SENAC, 2002.

TOMAL, M. I.; ALCAR, A. R.; DI CHIARA, I. G. Das redes sociais inovao. Revista

Cincia da Informao, Braslia, v. 34, n. 2, p. 93-104, maio/ago 2005. Acesso em: 02 mar.

2012. Disponvel em: http://www.scielo.br/pdf/ci/v34n2/28559.pdf

51

APNDICE A Protocolo de Reviso Sistemtica

Formulao da Pergunta

Visando identificar, analisar e interpretar evidncias do uso de tcnicas de

processamento de linguagem natural aplicadas minerao de textos nos estudos primrios na

ltima dcada, o protocolo de reviso sistemtica foi elaborado visando responder as

seguintes perguntas:

1. Quais tcnicas, algoritmos ou estruturao de dados utilizados pelo PLN esto

sendo aplicadas na minerao de textos?

2. De que forma eles so aplicados?

3. Quais so as vantagens e as limitaes observadas nas tcnicas?

4. Qual a tcnica mais recorrente?

5. Existe alguma experincia do uso de PLN aplicado minerao de textos

postados em redes so

técnicas de processamento de linguagem natural aplicadas ao processo de mineração de textos uma...

Documents