caracterização de um corpus jornalístico português · políticos: o texto jornalístico do jpn...

81
FACULDADE DE E NGENHARIA DA UNIVERSIDADE DO P ORTO Caracterização de um corpus jornalístico português Henrique Teixeira de Sousa Mestrado Integrado em Engenharia Informática e Computação Orientador: Sérgio Nunes 27 de Julho de 2015

Upload: hatram

Post on 31-Oct-2018

220 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

FACULDADE DE ENGENHARIA DA UNIVERSIDADE DO PORTO

Caracterização de um corpusjornalístico português

Henrique Teixeira de Sousa

Mestrado Integrado em Engenharia Informática e Computação

Orientador: Sérgio Nunes

27 de Julho de 2015

Page 2: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais
Page 3: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização de um corpus jornalístico português

Henrique Teixeira de Sousa

Mestrado Integrado em Engenharia Informática e Computação

Aprovado em provas públicas pelo Júri:

Presidente: Gabriel DavidArguente: Nuno Escudeiro

Vogal: Sérgio Nune27 de Julho de 2015

Page 4: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais
Page 5: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Resumo

Nesta dissertação procede-se ao processamento e caracterização de um arquivo de artigos denotícias do jornal online português JornalismoPortoNet (JPN), um corpus textual com conteúdode vários autores e tópicos. Um corpus representa um conjunto de textos no qual se pode efetuaruma análise estatística ou verificação de hipóteses, sobretudo na área da linguística. O crescentepoder computacional facilita o processamento de grandes corpora (pesquisa, tratamento, seleção,etc.). Este corpus tem como objetivo ser uma representação de texto jornalístico do JPN, cole-cionando os títulos, subtítulos, autores, notícias relacionadas, categorias e datas de publicação,para além de incluir uma pequena parte referente à opinião do leitor (comentários às notícias). Oarquivo é anotado quanto às partes da fala usadas, num primeiro processo de tratamento do seuconteúdo. Posteriormente é realizada uma análise aprofundada sobre a composição morfológicae categórica dos artigos de notícias, bem como uma investigação sobre os relacionamentos entrenotícias, os hábitos de publicação do jornal e as diferenças entre o grande leque de autores deexperiência variada. A análise morfológica revelou as diferenças em termos de partes do discursodo texto jornalístico quando comparado com outros tipos de textos, nomeadamente literários epolíticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais o jornal é principalmente composto por palavras referentes à cidade doPorto, fazendo-se também um estudo quanto aos n-gramas presentes nos textos. Categoricamenteo jornal aborda o tema da cidade do Porto, principalmente tópicos relacionados com a Univer-sidade do Porto, focando-se também na Cultura, na Ciência e Tecnologia, no País, no Mundo enoutros. A análise às relações entre notícias destaca ainda alguns artigos com maior importâncianum determinado tópico ou assunto. Finalmente é também analisada a receção do público face aoconteúdo jornalístico, tanto em visualizações como em comentários dos leitores, revelando a na-tureza apreciadora da maioria dos comentários que incidem sobretudo nos artigos de de Desportoe de Ciência e Tecnologia.

i

Page 6: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

ii

Page 7: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Abstract

In this dissertation we process a news article archive from the portuguese online journal Jor-nalismoPortoNet (JPN), a text corpus with content from several authors and topics. A corpusrepresents a group of texts in which one can perform statistical analysis or hypothesis testing,mainly in the field of linguistics. The growing computing power eases the processing of largecorpora (searching, treatment, selection, etc.). This corpus has the objective of being a represen-tation of the journalistic text practiced by JPN, collecting titles, subtitles, authors, related news,categories and dates of publishing, while including a small part referring to the reader’s opinion(news comments). The corpus will be annotated in respect to the Part-of-Speech tags used. Fol-lowing this, an deep analysis is performed about the morphological and categorical compositionof the news articles, including research about relationships between news, the publishing habits ofthe journal and the differences between the huge array of authors with varying experience. Themorphological analysis revealed the differences in terms of the parts-of-speech used in the jour-nalistic text compared to other types of text, namely literary and political: JPN’s journalistic textpresents more parts of names and less adjectives and adverbs. In respect to the lexical analysis, thejournal is composed mainly of words related to the city of Porto; we also perform a study regardingthe ngrams present in the text. Categorically the journal discusses the city of Porto, mainly topicsrelated with the University of Porto, also focusing on Culture, Science and Technology, Portugaland the World. The news relation analysis also highlights some articles of bigger importance incertain subjects or topics. Finally, the publics reception to the journalistic material, be it in pagevisualization or readers’ comments, revealing the congratulatory aspect of most comments, whichtarget mostly articles in the Sports and Science and Technology categories.

iii

Page 8: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

iv

Page 9: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Agradecimentos

Gostaria de agradecer a todos os que contribuíram direta e indiretamente para a realizaçãodesta dissertação, principalmente ao meu orientador, o professor Sérgio Nunes, por me ter acon-selhado, guiado e revisto todo o meu trabalho. À minha família dedico também um especialagradecimento pelo apoio prestado, assim como aos meus amigos e colegas de curso pelo compa-nheirismo que sempre mostraram ao longo deste percurso pessoal e académico.

Henrique Sousa

v

Page 10: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

vi

Page 11: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Conteúdo

1 Introdução 11.1 Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 Processamento de Linguagem Natural . . . . . . . . . . . . . . . . . . . 11.1.2 Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.3 As abordagens linguísticas no uso de corpora . . . . . . . . . . . . . . . 21.1.4 JornalismoPortoNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Motivação e Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3 Estrutura da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Revisão Bibliográfica 52.1 Corpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1 Corpora Internacionais . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.1.2 Corpora Portugueses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.3 Anotação de Corpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.1.4 Esquemas de Anotação . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.5 Anotação Embutida e Anotação Autónoma . . . . . . . . . . . . . . . . 102.1.6 Níveis de Anotação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Análise do Arquivo de Notícias . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3 Tecnologias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Processamento do arquivo de Notícias 153.1 JPN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2 Processamento e anotação do arquivo . . . . . . . . . . . . . . . . . . . . . . . 15

3.2.1 Autores e Editores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2.2 Notícias Relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2.3 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4 Caracterização do Arquivo 214.1 Vista geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.2 Análise Jornalística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.2.1 Hábitos de Publicação . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.2.2 Vídeo Artigos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.3 Análise dos Visitantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.3.1 Acessos e Visitantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3.2 Visualizações de Páginas . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3.3 Atividade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3.4 Pesquisas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3.5 Browsers Usados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

vii

Page 12: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

CONTEÚDO

4.3.6 Comentários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.4 Análise Morfológica e Lexical . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.4.1 POS Tags . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.4.2 POS tags nos comentários . . . . . . . . . . . . . . . . . . . . . . . . . 334.4.3 Frases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.4.4 Léxico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.4.5 N-Gramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.5 Análise Categórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.5.1 POS Tags nas Categorias . . . . . . . . . . . . . . . . . . . . . . . . . . 384.5.2 Léxico nas Categorias . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.5.3 Popularidade das Categorias . . . . . . . . . . . . . . . . . . . . . . . . 41

4.6 Análise de Autores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.6.1 POS Tags . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.6.2 Categorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.7 Relações entre Notícias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.7.1 Categorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5 Conclusões e Trabalho Futuro 575.1 Trabalho Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

Referências 61

viii

Page 13: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Lista de Figuras

4.2 Total número de artigos por mês . . . . . . . . . . . . . . . . . . . . . . . . . . 224.3 Total número de artigos por hora . . . . . . . . . . . . . . . . . . . . . . . . . . 234.4 Percentagem de vídeo artigos ao longo dos anos . . . . . . . . . . . . . . . . . . 244.5 Percentagem de vídeo artigos por categoria . . . . . . . . . . . . . . . . . . . . 244.6 Visitantes por mês . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.7 Visualizações de páginas por hora . . . . . . . . . . . . . . . . . . . . . . . . . 264.8 Visualizações de páginas por dia da semana . . . . . . . . . . . . . . . . . . . . 274.9 Browsers mais usados (Maio 2014) . . . . . . . . . . . . . . . . . . . . . . . . . 284.11 Horas até ao primeiro comentário após a publicação da notícia . . . . . . . . . . 294.12 Frequência de cada etiqueta POS no arquivo . . . . . . . . . . . . . . . . . . . . 304.13 Evolução das POS tags . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.14 Percentagem de POS tag por cada secção . . . . . . . . . . . . . . . . . . . . . 334.15 Percentagem de POS tag nos comentários . . . . . . . . . . . . . . . . . . . . . 344.17 Média TTR ao longo dos anos . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.18 Categorias mais frequentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.19 Evolução das categorias ao longo dos anos . . . . . . . . . . . . . . . . . . . . . 444.20 Distribuição de nomes comuns, partes de nome e preposições nas categorias . . . 454.21 Distribuição de adjetivos, advérbios e verbos nas categorias . . . . . . . . . . . . 464.22 Distribuição de demonstrativos, dígitos, quantidades e relativos nas categorias . . 474.23 Categorias mais populares (visualizações por artigo) . . . . . . . . . . . . . . . 494.24 Comentários por artigo nas diversas categorias . . . . . . . . . . . . . . . . . . . 504.25 POS Tags por grupo de autor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.26 Categorias por autor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.27 Grafo das relações entre notícias . . . . . . . . . . . . . . . . . . . . . . . . . . 534.28 Nós com maior valor de centralidade . . . . . . . . . . . . . . . . . . . . . . . . 544.29 As tags mais comuns no arquivo . . . . . . . . . . . . . . . . . . . . . . . . . . 55

ix

Page 14: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

LISTA DE FIGURAS

x

Page 15: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Lista de Tabelas

2.1 Alguns corpora disponíveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2 Resumo das Tecnologias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1 Marcadores XML de cada artigo no Corpus do JPN . . . . . . . . . . . . . . . . 183.2 LX-Suite Tagset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.1 Frases de pesquisa mais utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . 274.2 Unidades e tipos de algumas partes de discurso no JPN . . . . . . . . . . . . . . 304.3 Comparação das etiquetas POS com outros corpora . . . . . . . . . . . . . . . . 314.4 Uso e evolução percentual de algumas tags . . . . . . . . . . . . . . . . . . . . . 314.5 Palavras e o seu uso percentual em cada sub corpora . . . . . . . . . . . . . . . . 374.6 Concordância da palavra “Porto” no JPN . . . . . . . . . . . . . . . . . . . . . 384.7 Colocações (%) da palavra ’Porto’ em diferentes corpora . . . . . . . . . . . . . 394.8 Nomes Comuns mais usados no arquivo do JPN . . . . . . . . . . . . . . . . . . 394.9 Adjetivos mais usados no arquivo do JPN . . . . . . . . . . . . . . . . . . . . . 394.10 Colocações (%) da palavra “Porto” nos títulos das notícias do JPN . . . . . . . . 404.11 Alguns adjetivos comuns nos comentários . . . . . . . . . . . . . . . . . . . . . 404.12 Alguns bigramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.13 Alguns trigrams e a sua comparação com outros corpora . . . . . . . . . . . . . 414.14 Pentagrams mais frequentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.15 Pentagrams mais frequentes nos comentários . . . . . . . . . . . . . . . . . . . 434.16 Adjetivos/Nomes comuns mais usados na categoria Desporto . . . . . . . . . . . 484.17 Adjetivos/Nomes comuns mais usados na categoria Cultura . . . . . . . . . . . . 484.18 Adjetivos/Nomes comuns mais usados na categoria Mundo . . . . . . . . . . . . 484.19 Adjetivos/Nomes comuns mais usados na categoria Educação . . . . . . . . . . . 48

xi

Page 16: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais
Page 17: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Capítulo 1

Introdução

1.1 Contexto

A área da linguística atravessou um período de grande crescimento na segunda metade do

século XX, aliada ao avanço do poder computacional e da facilidade de acesso e recolha de infor-

mação. Mais que o estudo do uso e significado da língua, a linguística debruça-se sobre a delicada

relação entre a linguagem e as voláteis estruturas sociais ao longo da história, contribuindo para a

compreensão da mente humana.

1.1.1 Processamento de Linguagem Natural

O Processamento de Linguagem Natural (PLN) é um campo da Informática que se desenvol-

veu a partir do estudo da linguagem e do nascimento da linguística computacional no contexto

da inteligência artificial [LHL+03]. O PLN preocupa-se com o tratamento da linguagem humana,

principalmente na sua forma natural como em emails, páginas web, livros, artigos de notícias,

etc. Os problemas abordados em NLP são vários e possuem níveis de complexidade diferentes:

sistemas de resposta automática, sumarização de textos, tradução, reconhecimento de voz, classi-

ficação de documentos, análise de sentimento, etc.

1.1.2 Corpus

Entende-se por corpus, no plural corpora, um conjunto de dados naturalmente ocorridos de

uma linguagem, criado geralmente com um propósito particular e representativo tanto de uma

linguagem em geral (e.g. Português), como o uso da linguagem num domínio mais específico

(e.g. poesia portuguesa). Nos últimos anos, resultante da evolução tecnológica e do crescimento

da abordagem computacional da linguística, é geralmente chamado de corpus todo o conjunto de

material existente em forma eletrónica e que pode ser processado por computadores [MXT06]. As

razões para a utilização de um corpus são várias: modelação e estudo da distribuição linguística de

1

Page 18: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Introdução

uma linguagem, treino de classificadores, arquivo e outros tópicos de pesquisa e desenvolvimento

linguístico. Desde os anos 70 verificou-se uma abordagem ao estudo da linguagem cada vez

mais centrada no uso de corpora no campo da linguística, o que levou à construção dos primeiros

conjuntos de textos.

1.1.3 As abordagens linguísticas no uso de corpora

As duas grandes abordagens ao estudo da língua com o uso de corpora diferem na importância

colocada nos textos para a criação e validação de teorias sobre a linguagem em questão [GLM97].

Na abordagem baseada em corpus (corpus-based), as teorias, ideias e modelos de linguagem são

testados e provados com o uso de corpora. Por sua vez, a abordagem guiada por corpus (corpus-

driven) entrega-se em absoluto à “integridade dos dados como um todo"[Bak06], em que novas

teorias e ideias são completamente refletidas no texto, desde que este possua um tamanho consi-

derável. Por outras palavras, o estudo intensivo do corpus revela novas ideias e teorias sobre a

linguagem em questão, enquanto que a abordagem baseada em corpus delega ao corpus apenas

uma tarefa de validação de teoremas.

1.1.4 JornalismoPortoNet

O JPN (JornalismoPortoNet) [Rei15b] é um jornal digital de informação geral da Licenciatura

de Ciências da Comunicação da Universidade do Porto, ativo desde 2004. Um jornal multimé-

dia e com atualização permanente, o JPN conta com a contribuição de diversos colaboradores,

“acompanhando a evolução das novas tecnologias de comunicação e pondo em prática as mais

modernas técnicas de expressão jornalística na Internet"[Rei15a]. O jornal publica artigos em

diversas categorias, desde a Cultura e Economia, até ao Desporto e Educação, e conta com ar-

tigos de exposição e entrevistas com personalidades relevantes. Desde o ano 2008 até ao ano

2012, arrecadou por quatro vezes consecutivas o prémio de “Melhor Ciberjornalismo Académico”

nas competições “Prémios de Ciberjornalismo”, promovidas pela equipa de investigação ObCiber

[RBZ14].

1.2 Motivação e Objetivos

A necessidade de novos corpus faz-se sentir com a evolução da linguagem (como por exemplo,

neologismos), e a evolução dos temas discutidos pela sociedade. Surge deste modo a oportunidade

de processar um vasto corpus português para contribuir e promover avanços na área da linguística

computacional e para analisar as ideias na presente sociedade. Pretende-se assim colecionar e

processar os artigos de notícias do arquivo online do jornal JPN. Este corpus será composto por

documentos que contêm tanto o corpo da notícia bem como o seu título, subtítulo, autor, notícias

relacionadas, categoria e data de publicação, de forma a permitir o estudo de outros tipos de

características (p. ex. frequência de notícias ao longo dos anos). Uma anotação ao nível gramatical

é adicionada permitindo uma investigação mais profunda quanto à composição morfológica dos

2

Page 19: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Introdução

textos jornalísticos do jornal, comparando-se com outros tipos de textos e arquivos de notícias.

Juntamente com esta análise ao arquivo é feita também uma análise aos acessos ao site do JPN

bem como ao conteúdo dos comentários dos leitores e aos seus hábitos de publicação.

1.3 Estrutura da Dissertação

Para além da introdução, esta dissertação contém mais 4 capítulos. No Capítulo 2, é descrito

o estado da arte e são apresentados trabalhos relacionados. No Capítulo 3 é esclarecida a estrutura

do arquivo bem como o processamento efetudo nos artigos. No Capítulo 4 são apresentadas as

análises efetuadas sobre o corpus, assim como algumas reflexões sobre a sua implicação e natu-

reza. No Capítulo 5 conclui-se a dissertação e pondera-se sobre possíveis extensões ao corpus e

algumas das suas aplicações futuras.

3

Page 20: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Introdução

4

Page 21: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Capítulo 2

Revisão Bibliográfica

Neste capítulo é descrito o estado da arte e as mais recentes inovações e projetos no campo da

linguística computacional e na oferta de corpora nacionais e internacionais.

2.1 Corpora

2.1.1 Corpora Internacionais

Os primeiros corpora linguísticos surgiram num contexto académico tendo como objetivo o

estudo da linguagem. Um dos primeiros e mais importantes corpus é o Brown Corpus [FK79], da

Universidade de Brown, publicado em 1963, com cerca de um milhão de palavras em inglês, de

obras publicadas em 1961. Sujeito a diversas análises computacionais, tornou-se um dos corpora

mais citados no campo da linguística. O corpus está dividido em 500 exemplos, cada um com

aproximadamente 2000 palavras, extraídos de várias áreas, desde fontes jornalísticas (Política,

Desporto, Sociedade) e religiosas até material educativo e de ficção.

Todas as palavras do Brown Corpus são ainda anotadas com uma etiqueta indicativa da classe

específica da palavra. Estes etiquetas pertencem a um conjunto de 82 etiquetas (tags) e estão divi-

didos em seis tipos: partes da fala (POS-tagging), etiquetas de função (determinantes, preposições,

etc), etiquetas de certas palavras importantes (neste caso not e os verbos be e have), etiquetas de

pontuação com importância sintática, etiquetas sobre morfemas da língua inglesa (indicadores de

possessão, pluralidade, passado, presente, particípio passado, comparação e superlativo), e final-

mente etiquetas com a função de indicar se uma palavra é estrangeira ou parte de uma citação. O

Brown Corpus foi uma peça importante na abordagem à linguística com base em corpora, sendo

usado em estudos de POS-tagging, identificação e delimitação de frases.

Um dos mais usados e detalhados corpora construídos a partir da agência de notícias Reuters,

o RCV1 (Reuters Corpus Volume 1) [RSW02] é composto por cerca de 800 000 notícias extraídas

entre agosto de 1996 e agosto de 1997. Os artigos do RCV1 foram manualmente anotados catego-

ricamente (relativamente ao tópico da notícia), usando um conjunto de 126 códigos, organizados

5

Page 22: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Revisão Bibliográfica

hierarquicamente. Um artigo pode ser anotado com mais do que um código. Adicionalmente,

cada artigo está anotado no que diz respeito à indústria (de um conjunto de 870 códigos) e às

regiões mencionadas na notícia. Esta última anotação está separada em três categorias: países,

grupos geográficos e grupos económicos (p. ex. GSEVEN). O corpus recebeu muita atenção nas

áreas de extração de informação e classificação de documentos. Mais antigo que o RCV1 é o cor-

pus Reuters-21578 [Lew97], um corpus muito popular entre a comunidade de processamento de

linguagem natural, com 21 578 artigos da Reuters do ano de 1987. Este corpus foi usado em proje-

tos de classificação de texto [Joa98] e representação de conhecimento [Wu04] e mapas neuronais

[Wer00].

Com o avanço dos anos foram surgindo cada vez mais corpora, em especial os chamados

corpora nacionais, que visam agregar dados que refletem o uso da linguagem nacional de um país

(Britânico, Americano, Polaco, etc). Esta evolução foi acompanhada com o aumento do tamanho

dos corpora, atingindo as 100 milhões de palavras em certos exemplos (British National Corpus

[Bur95]), ou até as 400 milhões de palavras no caso do Corpus of Contemporary American English

[Dav08]. Estes corpora reúnem uma grande quantidade de material, focando-se na diversidade de

textos e fontes, contribuíndo para o equilíbrio final do corpus, como diz McEnery et al.: “the

representativeness of a corpus, especially a general corpus, depends primarily upon how balanced

the corpus is, in other words, the range of text categories included in the corpus” [MXT06].

O British National Corpus (BNC) (Aston and Burnard 1998) [Bur95] representa um impor-

tante exemplo dos corpora nacionais, composto por mais de 100 milhões de palavras, com textos

extraídos de várias fontes jornalísticas, fictícias e académicas do século XX. O corpus possui uma

parte escrita (90%) e uma parte falada (10%), sendo esta última a transcrição de conversações

informais em diferentes contextos. O BNC foi automaticamente anotado com POS-tags usando

a ferramenta CLAWS [Gar87], e está codificado de acordo com a iniciativa TEI [IV95] para re-

presentar as diversas propriedades estruturais do texto (títulos, parágrafos, listas, etc). O trabalho

efetuado no BNC é extenso e abrange diferentes vertentes da linguística: desambiguação de pa-

lavras [Eva01] [SW01], o uso de diversas formas verbais e expressões na língua inglesa [Mal00]

[SV00] [Deu03], delimitação de frases [SG00], identificação de entidades [MTU+01] e categori-

zação de textos [SFK00].

Um importante corpus desenvolvido após o Brown Corpus é o London-Lund Corpus of Spoken

English [Sva90], publicado em 1990. O corpus é composto por 500 000 palavras transcritas de

conversações inglesas e apresenta um avançado esquema de anotação que, para além de anotar as

partes da fala, marca o uso de diferentes tipos de expressões (p. ex. expressões de cumprimento,

atenção, formalidade, agradecimento, etc). O North American News Text Corpus [Gra95] foi

criado pelo LDC (Linguistic Data Consortium2) e apresenta textos de diversas fontes jornalísticas

Norte Americanas, nos anos 1996 e 1997. O corpus foi usado maioritariamente para o estudo de

analisadores sintáticos (parsing) automáticos [MCJ06].

O corpus da revista Norte Americana TIME [Dav07] é composto por mais de 275 000 textos

diretamente retirados dos arquivos da TIME entre 1923 e 2006. O corpus é POS-tagged e tem

2https://www.ldc.upenn.edu/

6

Page 23: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Revisão Bibliográfica

vindo a ser usado para estudar a evolução lexical do língua inglesa [Mil09]. Outro corpus impor-

tante no que diz respeito à tarefa de identificação de entidades nomeadas é o RSS-500 [RUH+14]

, construído a partir de quase 1500 feeds de RSS das principais fontes noticiosas internacionais no

ano de 2011. O RSS-500 foi manualmente anotado relativamente as entidades presentes no texto.

2.1.2 Corpora Portugueses

No domínio dos corpora portugueses, o estudo e criação de corpora começa no início dos anos

90 [OS98], com várias coleções relativamente pequenas como a Natura – Público [OS98], com

6 milhões de palavras, e a Natura – Minho [OS98], com 2 milhões de palavras. Uma coleção

de artigos de notícias e conteúdo jornalístico é o DiaCLAV [SS02], com 6,7 milhões de palavras

de vários jornais online regionais do centro de Portugal (Diário de Coimbra, Diário de Leiria,

Diário de Aveiro e Viseu Diário), de junho de 1999 a setembro de 2000. No que diz respeito a

corpora de grandes dimensões, a oferta de corpora brasileiros era consideravelmente mais elevada,

com corpora como o NILC/São Carlos [NGM+96], com 31 milhões de palavras. O CETENFolha

[dTE] é outro corpus brasileiro baseado no NILC/São Carlos composto por textos jornalísticos do

jornal “Folha de S. Paulo"do ano de 1994, com 24 milhões de palavras na sua primeira edição.

Surge no começo do novo milénio um dos mais importantes corpus da língua Portuguesa, o

CETEMPúblico [RS00], composto por notícias do jornal Público 3 durante um período de seis

anos (1994 a 2000) e com um tamanho de 180 milhões de palavras. Diversos projetos de inves-

tigação em programação de linguagem natural utilizam o CETEMPúblico como corpus de geral

utilização tanto para o teste e validação de algoritmos como para o treino de técnicas de apren-

dizagem automática: extração de relações [OSG09], sistema de respostas automático [Cos06],

analisadores morfológicos [Vic13] e correção automática [MS04b].

O CINTIL - International Corpus of Portuguese [BBF+06], com 1 milhão de palavras é com-

posto por uma metade de textos jornalísticos e outra metade por transcrições de conversas formais

e informais em português. O corpus é também POS-tagged e foi construído como um recurso de

teste e validação para um conjunto de ferramentas (segmentador, analisador sintático, anotador,

etc.) do grupo da fala e linguagem da Faculdade de Ciências da Universidade de Lisboa4. O

Corpus do Português [Dav09] composto por textos portugueses e brasileiros do século XIV até ao

seculo XX, possui 45 milhões de palavras e é outro importante corpus, especialmente no domínio

da análise histórica da língua portuguesa [dA10] [Mä13]. Mais moderno é o Reference Corpus of

Contemporary Portuguese Online [GHM12], desenvolvido no Centro de Linguística da Universi-

dade de Lisboa e que agrega mais de 312 milhões de palavras, com textos em português europeu

assim como outras variantes (português brasileiro, português angolano, etc), desde a segunda me-

tade do século XIX até ao ano 2008. O corpus é anotado com as etiquetas de POS usadas no

CINTIL [BBF+06] e foi usado para teste de um sistema de anotação automático da modalidade

dos verbos portugueses [QMHG14].

3http://www.publico.pt4http://lxcenter.di.fc.ul.pt/tools/pt/

7

Page 24: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Revisão Bibliográfica

O WPT 03 [MS04a] é um corpus criado no âmbito da criação de um motor de pesquisa web

português e é composto por mais de 3,7 milhões de documentos, onde cerca de 70% são escritos

em português. O corpus foi usado para a realização de uma caracterização da web portuguesa,

comparando a presença de termos em relação a outro corpus (CETEMPúblico) e analisando o

tamanho dos documentos [MS04a]. Em 2005, o corpus foi atualizado e aumentado (WPT 05).

Diversos outros corpora portugueses foram criados desde o nascimento da área da linguística

computacional, diferenciando-se sobretudo no tipo de textos colecionados e na variante da Língua

Portuguesa nestes presente. Alguns destes corpora a que não se deu tanta relevância são coleções

e grupos de corpora, como o Floresta Sintá(c)tica [FRB08], um treebank português, assim deno-

minado por ser sintaticamente anotado, resultando em estruturas tipo árvores que especificam a

organização sintática das frases dos seus textos. Apenas uma parte da anotação sintática do corpus

foi revista por linguistas. O Floresta está também anotado morfologicamente, e é composto por

textos do CETEMPúblico e do CETEMFolha, e os seus diferentes sub corpora (Bosque, Amazó-

nia, Floresta Virgem e Selva) somam no total aproximadamente 7 milhões de palavras. Outros

corpora portugueses são o BIG Corpus PT [Bat14], o CHAVE, composto por textos do Público

e do Folha de São Carlos, o Colónia, com textos históricos desde o século XVI e o Avante!,

composto essencialmente de textos políticos do semanário Avante! de 1997 a 2002.

Na Tabela 2.1 são apresentados os principais em mais relevantes corpora portugueses disponí-

veis.

2.1.3 Anotação de Corpora

Um dos aspetos mais importantes da linguística de corpora e onde ocorreram diversas ino-

vações nos últimos anos é a anotação. A anotação consiste na sinalização, normalização e adi-

ção de informação linguística a um corpus, com o objetivo de o enriquecer com valor linguístico

[GLM97]. Pode ser considerada a prática de adicionar informação interpretativa e linguística a um

corpus eletrónico. O facto de ser interpretativa é de extrema importância: as anotações resultam de

uma análise subjetiva do texto, não representando uma verdade linguística absoluta. A anotação é

acima de tudo meta linguística: oferece informação sobre a linguagem usada. As razões para ano-

tar um corpus consistem principalmente na facilidade de extração de informação, que por vezes

só se torna acessível depois de se construir/descobrir informação adicional sobre o texto. Outro

ponto forte da anotação é a característica de ser reutilizável e multifuncional: sendo um processo

muitas vezes oneroso, um texto anotado poupa trabalho a um investigador, revelando-se por vezes

a mesma anotação útil na resolução de diferentes problemas.

Enquanto que no início da linguística de corpus a anotação era um processo manual, efetuado

por especialistas em linguística, nos dias de hoje o processo de anotação é geralmente automático.

A anotação de corpora deve seguir as seguintes máximas [Lee93]:

1. Deve ser sempre possível regressar/visualizar os dados originais, o que se pode revelar difícil

devido à normalização, como por exemplo, depois da extensão de um pronome composto

“da” (de + a).

8

Page 25: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Revisão Bibliográfica

Nom

eTa

man

hoa

Inte

rval

oTe

mpo

ral

Obs

erva

ções

/Ano

taçõ

esTi

pode

Text

oL

íngu

ain

gles

aB

row

nC

orpu

s(1

963)

[FK

79]

100

019

61(1

ano)

POS-

tags

Vár

ios

BN

C(1

998)

[Bur

95]

100

000

40an

osPO

S-ta

gsV

ário

sR

CV

1(1

997)

[RSW

02]

170

000

b19

96-1

997

(1an

o)C

ateg

oria

deTe

xtos

eR

egiõ

esM

enci

onad

asJo

rnal

ístic

oR

eute

rs-2

1578

(199

6)[L

ew97

]4

600

1996

-199

7(1

ano)

Cat

egor

ias

(Pes

soas

,Loc

ais,

Org

aniz

açõe

s)Jo

rnal

ístic

oL

LC

SE(1

990)

[Sva

90]

500

1959

–198

9(3

0an

os)

Tran

scri

ção

deco

nver

saçõ

es,P

arte

sda

fala

Info

rmal

,Con

vers

ação

NA

NT

Cor

pus

(199

7)[G

ra95

]90

400

1994

-199

7(3

anos

)N

ãoan

otad

oJo

rnal

ístic

oT

IME

Cor

pus

(200

7)[D

av07

]10

000

019

23-2

006

(83

anos

)PO

S-ta

gsJo

rnal

ístic

oL

íngu

apo

rtug

uesa

Nat

ura

-Púb

lico

(199

4)[O

S98]

600

019

91-1

994

(3an

os)

Não

anot

ado

Jorn

alís

tico

Nat

ura

-Min

ho(1

994)

[OS9

8]2

000

1991

-199

4(3

anos

)N

ãoan

otad

oJo

rnal

ístic

oD

iaC

LAV

(200

0)[O

S98]

670

019

99-2

000

(1an

o)PO

S-ta

gsJo

rnal

ístic

oN

ILC

/São

Car

los

(199

6)[N

GM

+96

]31

000

1994

(1an

o)C

orpu

sbr

asile

iro,

não

anot

ado

Jorn

alís

tico

CE

TE

MPú

blic

o(2

000)

[RS0

0]18

000

019

94-2

000

(6an

os)

POS-

tags

Jorn

alís

tico

CE

TE

NFo

lha

(200

2)[d

TE

]24

000

1994

(1an

o)PO

S-ta

gsJo

rnal

ístic

oFl

ores

taSi

ntá(

c)tic

a(2

002)

[FR

B08

]7

000

1994

-200

6(6

anos

)A

nota

ção

Sint

átic

ae

Mor

foló

gica

Jorn

alís

tico

WPT

-03

(200

4)[M

S04a

]1

600

600

199?

-200

3(1

0an

os)

Não

anot

ado

Web

CIN

TIL

(200

6)[B

BF+

06]

100

020

06(1

ano)

?PO

S-ta

gs,l

ema

ea

flexã

oda

scl

asse

sab

erta

sV

ário

sC

orpu

sdo

Port

uguê

s(2

006)

[Dav

09]

4500

0Sé

c,X

IV-S

éc.X

X(6

00an

os)

Vár

ios

RC

CP

(201

2)[G

HM

12]

312

000

1800

-200

8(2

00an

os)

POS-

tags

Vár

ios

Tabe

la2.

1:A

lgun

sco

rpor

adi

spon

ívei

s

a emm

ilhar

esde

pala

vras

b Ass

umin

doa

méd

iade

213

pala

vras

pora

rtig

o[N

WM

06],

com

800

000

artig

os

9

Page 26: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Revisão Bibliográfica

2. A anotação deve ser extraível do texto

3. A anotação deve ser devidamente documentada

4. Deve ser mencionado como foi criada a anotação (automática, manual), por quem foi criada,

e de que tipo é.

5. O utilizador deve ser avisado que a anotação é falível.

6. O esquema de anotação deve-se basear o mais possível em princípios e conceitos largamente

reconhecidos na comunidade científica.

7. Nenhum esquema de anotação tem o direito de se auto-considerar como um standard da

área.

2.1.4 Esquemas de Anotação

Um esquema de anotação pode ser definido como “an explanatory system supplying informa-

tion about the annotation practices followed, and the explicit interpretation, in terms of linguistic

terminology and analysis, for the annotation” [Lee04]. Quando a anotação incide sobre áreas

profundamente estudadas como a estrutura gramática ou sintática de uma frase, o esquema de

anotação pode e deve ser baseado num conjunto consensual de categorias, com as quais a maioria

dos linguísticas concorda. O uso de um esquema de anotação que reflita e se conforme com as te-

orias e designações mais aceites resultará num corpus mais acessível e num esquema de anotação

significativamente mais re-utilizável.

O esquema de anotação varia conforme o tipo de anotação a aplicar e, enquanto que corpora

mais antigos utilizavam uma anotação mnemónica colocada junto da palavra/token, hoje em dia é

mais comum a utilização de sistemas de anotação mais complexos e verbosos como o SGML/XML

[MXT06].

2.1.5 Anotação Embutida e Anotação Autónoma

Outra importante discussão referente à anotação de corpora é a colocação e posição de ano-

tações no texto do corpus disponibilizado. A primeira, e mais simples, abordagem refere-se à

mistura de textos com a anotação, resultando na clássica anotação embutida, presente na maioria

dos corpora (BNC, Brown Corpus). Um exemplo é “Hoje/ADV fui/V a/DA Lisboa/PNM”, onde

as partes-do-discurso são aglutinadas à palavra correspondente.

A segunda abordagem centra-se na separação física do texto do corpus com a anotação, man-

tendo apenas uma ligação entre os dois. Em comparação com a anotação embutida, a anotação

autónoma (stand-alone) possui diversas vantagens como a criação de hierarquias sobrepostas, a

possibilidade do uso de diferentes esquemas de anotação no mesmo texto e a facilidade de mani-

pulação da anotação sem causar problemas em outros níveis. No entanto, a anotação autónoma

carrega também um problema a nível de complexidade (algumas anotações poderão necessitar de

várias ligações difíceis de estabelecer) e de compatibilidade com a maioria das ferramentas de

10

Page 27: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Revisão Bibliográfica

exploração de corpus (e.g. Wordsmith [Sco96] e Xaira [Bur06]) que são geralmente construídas

para o uso com anotação embutida.

2.1.6 Níveis de Anotação

Os tipos de anotação distinguem-se normalmente pelo nível em que atuam no texto. A ano-

tação de mais baixo nível, morfológica, encarrega-se do desdobramento de palavras compostas,

com prefixos e sufixos. Ao nível gramatical são usadas diversas anotações, sendo a mais comum

e desenvolvida a POS-tagging, que involve a anotação das partes do discurso presentes nas frases

do texto. Esta anotação indica se uma palavra é um nome, um adjetivo, um pronome, ou outros,

ajudando na desambiguação de algumas palavras incertas (p. ex. “Eu como um pão”, “voa como

uma ave”). A enorme quantidade de estudos sobre o POS-tagging faz desta anotação uma das

mais desenvolvidas e sofisticadas, atingindo níveis de sucesso de 97% [BS04].

Outras anotações a este nível são por exemplo o género, número e tipo de palavras, lemati-

zação, e campos semânticos (família de palavras). A lematização define-se como o processo de

agrupar diferentes formas de palavras num único item que pode ser analisado individualmente

[MRS08]. As palavras “trabalhou, trabalho, trabalhoso” possuem o lema comum “trabalho”. No

nível sintático estão presentes as anotações referentes à natureza sintática das frases, mais especi-

ficamente a construção de árvores sintáticas (treebanks). Neste nível é abordada a clássica tarefa

de parsing de uma frase, determinando o sujeito, predicado, etc.

Ao nível do discurso são aplicadas geralmente anotações de coreferência, atos da fala e ano-

tação estilística. A anotação de coreferência visa descobrir quando duas expressões se referem à

mesma pessoa ou coisa. É assim essencial para determinar o sujeito de um pronome. Atos da fala

correspondem à finalidade de um discurso, ou parte dele. Uma citação de um ator pode ser assim

classificada conforme que tipo de ação o seu discurso impõe, seja assertividade, diretividade, ex-

pressividade, etc. A estilística confina-se na anotação do tipo de texto presente: narração, discurso

direto, discurso indireto, pensamento, etc.

Finalmente ainda existem as anotações que não se incluem num nível textual específico e

são muitas vezes orientadas ao problema. Neste campo temos a EEM (extração de entidades

mencionadas), que visa identificar pessoas, eventos, locais, organizações e outros presentes no

texto. Enquanto que sistemas antigos usavam algoritmos baseados em regas criados manualmente,

a maioria dos sistemas modernos usam técnicas de aprendizagem automática. A escolha do set

de tipos de entidades é também importante, sendo a hierarquia de Sekine [SSN02] uma das mais

usadas com mais de 200 tipos de entidades.

Um problema relacionado com a identificação de entidades é o de Ligação de Entidades (En-

tity Linking). Um corpus anotado com Ligação de Entidades vem geralmente acompanhado de um

dicionário de entidades, que são referenciadas no texto, muitas vezes por denominadores diferen-

tes. É assim uma tarefa importante analisar o texto e desambiguar a que entidade se refere uma

certa expressão. Este problema já foi abordado recorrendo a bases de conhecimento [ZLHZ10].

Para finalizar, é claro que o tipo de anotação necessário num corpus está altamente dependente do

11

Page 28: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Revisão Bibliográfica

uso final e do objetivo de pesquisa deste. No entanto, alguns tipos de anotações têm uma grande

variedade de usos e podem servir de base para anotações mais complexas de nível mais alto.

2.2 Análise do Arquivo de Notícias

A segunda parte da dissertação incide sobre a construção de uma análise sobre o arquivo de

notícias do JPN. O objetivo desta análise é tanto o de observar a evolução linguística do jornal

como o de descobrir padrões e hábitos de publicação de um meio jornalístico online. O estudo do

arquivo pode incidir sobre vários aspetos dos dados, pelo que apresentamos aqui algumas análises

mais comuns.

A análise lexical do corpus centra-se sobre os léxicos e formas gramaticais mais presentes nos

textos. É possível assim determinar se um jornal possui um texto fundamentalmente mais rico em

adjetivos do que um texto não-jornalístico e também a riqueza lexical (número de palavras únicas)

dos artigos. Esta análise pode ser estendida à pesquisa das palavras que são mais mencionadas

no corpus num certo contexto, por exemplo, quantas vezes os países europeus são mencionados

[WA07], ou quais as expressões mais utilizadas por certos autores.

Uma segunda análise possível refere-se à categoria das notícias no arquivo. Com o uso de

classificadores é feita uma divisão quanto à categoria dos artigos, que podem abranger um tema

mais genérico (desporto, atualidade, política, etc.) ou situar-se numa categoria específica (Epide-

mia Ébola 2014, Mundial de Futebol 2010, etc.) [Cri13]. Esta categorização pode ser conseguida

ao identificar palavras-chave (keywords) no texto, usando depois um classificador para distinguir

o tipo de notícia, ou através do uso de grupos (clusters) [NMTM00].

A análise jornalística preocupa-se com características não relacionadas com o conteúdo dos

textos, procurando descobrir padrões sobre os hábitos de publicação do arquivo: hora do dia mais

comum para a publicação de novas notícias, autores mais ativos, etc. Esta é uma área onde ainda

não foi efetuada investigação considerável e relevante, pelo que espera-se, com esta dissertação,

contribuir para o avanço desta análise.

A análise geográfica tenta posicionar a notícia num ou mais locais no espaço, resultando num

mapa capaz de indicar os locais com mais protagonismo no arquivo. Adicionalmente, esta análise

poderá ser aliada à categoria de notícias para distinguir que tipos de notícias (entretenimento,

educação, etc.) ocorrem mais em certas regiões, ou até estender este conceito para que tipo de

regiões são mais associadas com uma certa palavra-chave (ex. “crime”) [GB].

Outra análise importante é a análise de entidades, focada nos atores, organizações e eventos

dos arquivos, identificando relações e possíveis cumplicidades entre entidades e permitindo, por

exemplo, a criação de uma rede de personalidades do corpus. Os métodos de extração e aná-

lise de relações entre personalidades são vários, desde baseando-se na referência simultânea de

duas personalidades no mesmo artigo (tornando-se a relação mais forte quanto mais vezes estes

forem referenciados em conjunto), até à compreensão profunda do texto de forma a inferir uma

relação exata entre atores [FSM+09]. Este tipo de análise já foi abordado em diversos trabalhos,

destacando-se o português Sapo “Máquina do Tempo” [U/P15].

12

Page 29: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Revisão Bibliográfica

Finalmente a análise sentimental visa identificar a polaridade sentimental de um texto. Por

outra palavras o seu objetivo é interpretar corretamente se o autor expressa uma posição positiva

ou negativa sobre certo assunto. É importante saber o balanço emocional quando são expressas

opiniões, o que, no contexto de um arquivo de notícias, pode acontecer numa entrevista. A posição

emocional do texto é exposta recorrendo geralmente a certas palavras-chave que correspondem a

posições negativas ou positivas [NAdL+12].

2.3 Tecnologias

No que diz respeito a tecnologias, é de destacar a grande oferta de ferramentas de anotação

automática de textos, em diversas linguagens, principalmente para as tarefas de POS-tagging e le-

matização. Nesta dissertação importam principalmente as ferramentas não comerciais, que podem

ser assim usadas no propósito desta tese. Apresentamos de seguida algumas das mais importantes.

A Linguateca [San11] é um centro de recursos linguísticos que se dedica a servir a comunidade

de processamento computacional da língua portuguesa. A Linguateca apresenta serviços de acesso

a recursos (corpora, publicações, informações), manutenção de comunicações entre vários inves-

tigadores e participa ativamente na criação, disponibilização e promoção de projetos linguísticos

portugueses. Um dos seus mais importantes projetos é o AC/DC (Acesso a Corpos/Disponibiliza-

ção de Corpos) [SB00], que surge em 1999 e visa aglomerar e disponibilizar diversos corpora num

único website, com uma interface comum e uma poderosa ferramenta de interrogação de corpora.

Para além disso, o AC/DC anota automaticamente todos os corpora envolvidos no projeto, com o

anotador PALAVRAS [Bic00]. O PALAVRAS é um analisador automático para o português cri-

ado por Eckhard Bick, que pode ser usado para anotar um corpus com partes da fala e informações

gramaticais.

O LX-Suite [BS06] foi desenvolvido pela Universidade de Lisboa e é distribuído gratuita-

mente. Esta ferramenta disponibiliza serviços de segmentação de frases (LX-Chunker), um ato-

mizador (LX-Tokenizer), um etiquetador com uma precisão de 96% (LX-Tagger), assim como um

lematizador com precisão de 97.6% (LX-Lemmatizer).

No que diz respeito a exploradores de corpora, os mais utilizados são o Wordsmith [Sco96]

e o Xaira [Bur06]. Estas ferramentas possibilitam a descoberta de concordância nas palavras do

corpus, ou seja, esclarece quais as palavras colocadas à palavra em questão. Outra funcionali-

dade é a identificação de palavras-chave (keywords) num texto específico, e a criação de listas de

palavras de forma a analisar a sua frequência.O Stanford CoreNLP [MSB+14] é um projeto da

Universidade de Stanford que agrega várias ferramentas de análise de linguagem natural. A cole-

ção de ferramentas é escrita em Java e é capaz de atomização, segmentação de frases, anotação de

acordo com diversos tagsets, identificação de entidades e análise de sentimento. NLTK (Natural

Languge Toolkit) [Bir06] é uma plataforma de processamento de linguagem natural construída em

Python, capaz de diversas análises linguísticas (concordância, análise sintática, anotação, lemati-

zação, etc.) e com uma grande coleção de corpora e outros recursos para o teste de algoritmos e

13

Page 30: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Revisão Bibliográfica

teoremas. Esta ferramenta destaca-se pela facilidade de uso ao mesmo tempo que mantém uma

alta qualidade nos seus algoritmos de classificação e anotação.

O Rembrandt [Car08] é uma ferramenta de reconhecimento de entidades mencionadas para a

língua portuguesa, capaz também de detetar relações entre as entidades no texto. Esta ferramenta

usa a enciclopédia online Wikipédia para resolver as entidades mencionadas.

As tecnologias mencionadas podem ser consultadas na Tabela 2.2.

Nome Funcionalidade Licença ObservaçõesSuportadas atualmenteLX-SUITE (2006) [BS06] Anotação POS Gratuita FerramentaCoreNLP (2013) [MSB+14] NER, POS tagging, etc Gratuita Biblioteca JavaNLTK (2006) [Bir06] POS tagging, parsin, etc Gratuita Biblioteca PythonWordSmith (1996) [Sco96] Exploração de Corpora ComercialXAIRA (2005) [Bur06] Exploração de Corpora GratuitaLingua::PT::PLNbase (2003) [JAR03] Segmentador e Atomizador Gratuita Biblioteca PerlNão suportadas atualmentePALAVRAS (2000) [Bic00] Anotação POS Não disponível Usado no projeto ACDCRembrandt (2006) [Car08] Reconhecimento de Entidades Gratuita Ferramenta

Tabela 2.2: Resumo das Tecnologias

14

Page 31: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Capítulo 3

Processamento do arquivo de Notícias

A primeira tarefa desta dissertação aborda assim o processamento do arquivo de notícias do

jornal online JPN, normalizando os textos e autores e anotando os artigos para posteriormente ser

efetuada uma análise a vários níveis do arquivo.

3.1 JPN

Os artigos publicados pelo JPN obedecem à seguinte estrutura:

• Título

• Autor

• Data de Publicação (D:M:A | H:m)

• Grupo de marcadores que identificam as notícias (Cultura, Economia, etc)

• Subtítulo

• Corpo da notícia

• Comentários à notícia (gerados pelos leitores)

A extração das notícias do arquivo online foi realizada, guardando os artigos num ficheiro,

formato XML, do ano de publicação respetivo. O arquivo estende-se desde o mês de março de

2004, no inicio do JPN, até março de 2015.

3.2 Processamento e anotação do arquivo

Depois de reunidas todas as notícias e comentários do arquivo, foi feito o processamento

do corpus para estar pronto a ser analisado. As etiquetas de HTML do corpo da notícia são

15

Page 32: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Processamento do arquivo de Notícias

removidas e é feita a divisão de frases dos textos no título, subtítulo e corpo da notícia, usando

a biblioteca Lingua-PT-PLNbase [JAR03] para Perl, disponível no CPAN. Esta biblioteca usa um

algoritmo utilizado no projeto Natura que separa as frases de um texto, inserindo-as num nó de

XML com a etiqueta <s>. Depois desta separação, cada frase é introduzida no marcador de partes

da fala do LX-Suite, que para além de efetuar a atomização atribuindo a cada palavra uma etiqueta

das presentes na Tabela 3.2. Este processo de anotação foi também efetuado nos comentários às

notícias.

Quanto ao tipo de anotação, foi decidido usar um esquema de anotação embutida, de forma a

simplificar tanto o processo de anotação como o de consulta. A maioria dos corpos discutidos no

Capítulo 2 suportam também esta anotação, pelo que nos pareceu a escolha adequada.

3.2.1 Autores e Editores

O primeiro detalhe quanto ao tratamento dos arquivos é o uso de contas gerais para a publica-

ção de notícias escritas por outros autores, provavelmente sem conta no site do JPN no momento

da publicação. Isto leva a que muitas vezes o nome no campo de autor da notícia não seja o

do seu criador, atuando apenas como um editor da notícia escrita por outrem (p. ex. aluno). O

nome do(s) verdadeiro(s) autor(es) do artigo é colocado no fim do artigo, por vezes dentro de um

“div"identificado com a classe autor, ou mesmo apenas envolvido em etiquetas de parágrafo (<p>).

O conteúdo deste div apresenta, por vezes, ainda a informação sobre a fotografia ou fotógrafo res-

ponsável. De forma a resolver este problema foi efetuada uma divisão por separadores HTML de

parágrafo (<br/>), e posteriormente testada a correspondência com a seguinte expressão regular:

^( )*Foto(s?):(.*)

Esta expressão é responsável por detetar quando a caixa de autor está a mencionar o fotógrafo

do artigo. Todos os outros casos são aceites como criadores da notícia. A prevalência deste estilo

de autoria e publicação é menor nos anos mais recentes do arquivo. De forma a distinguir este tipo

de publicação foi acrescentada a etiqueta <editor>, que identifica o responsável pela publicação

da notícia. A etiqueta <creator> toma assim o significado correto de autor da notícia. Quando não

existe um editor evidente da notícia, esta etiqueta toma o valor do autor do artigo.

3.2.2 Notícias Relacionadas

Cada notícia pode ter associada uma ou mais notícias anteriores relacionadas. Este relacio-

namento é feito pelos autores da notícia e expõem alguns tópicos que são abordados ao longo

de vários artigos. A notícia relacionada é anotada com uma etiqueta related, onde se inserem a

etiqueta link, com o endereço da notícia relacionada, e a etiqueta linkName, que refere por sua vez

o nome da notícia. O significado de cada etiqueta de XML pode ser verificado na Tabela 3.1.

16

Page 33: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Processamento do arquivo de Notícias

3.2.3 Exemplo

Um exemplo de uma notícia do arquivo já completamente processada e anotada é o seguinte:

1 <item>

2 <title><![CDATA[Deutsche/PNM Bank/PNM acredita/V em_/PREP a/DA bolsa/CN portuguesa/

ADJ ]]></title>

3 <subtitle><s><![CDATA[Banco/PNM alemão/ADJ coloca/V bolsa/CN nacional/ADJ a_/PREP a

/DA frente/CN de_/V a/DA espanhola/ADJ .*//PNT ]]></s></subtitle>

4 <pubDate>Fri, 05 Mar 2004 14:57:09 +0000</pubDate>

5 <creator>pedrocandeias</creator>

6 <category>Destaques</category><category>Economia</category>

7 <related>

8 <link>http://jpn.up.pt/2013/12/17/680-bolsas-para-jovens-desempregados/</link>

9 <linkName>680 bolsas para jovens desempregados</linkName>

10 <content>

11

12 <s><![CDATA[Christophe/PNM Bernard/PNM ,*//PNT director/CN de_/PREP o/DA Deutsche/

PNM Bank/PNM \*,*//PNT afirma/V que/CJ Portugal/PNM beneficia/V de/PREP estí

mulos/CN adicionais/ADJ que/REL o/CL aproximam/V de_/PREP os/DA grandes/ADJ

mercados/CN europeus/ADJ ,*//PNT como/CJ é/V o/DA caso/CN de_/PREP o/DA Euro/CN

2004/DGT ,*//PNT de_/V o/DA baixo/ADJ valor/CN de_/PREP os/DA títulos/CN mais/

ADV importantes/ADJ e/CJ de_/PREP a/DA retoma/CN económica/ADJ .*//PNT ]]></s>

13

14 <s><![CDATA[Segundo/PREP o/DA director/CN de_/PREP o/DA banco/CN alemão/ADJ ,*//PNT

estes/DEM atractivos/CN vieram/V despertar/INF o/DA interesse/CN de_/PREP os/

DA investidores/CN europeus/ADJ que/REL até/ADV agora/ADV não/ADV estavam/V

muito/ADV atentos/ADJ a_/PREP o/DA mercado/CN nacional/ADJ .*//PNT ]]></s>

15

16 <s><![CDATA[Christophe/PNM Bernard/PNM esclarece/V que/CJ o/DA Deutsche/PNM Bank/

PNM tem/VAUX estado/PPT atento/ADJ a/PREP Portugal/PNM enquanto/CJ país/CN

integrado/PPA em_/PREP a/DA região/CN de_/PREP a/DA zona/CN euro/ADJ e/CJ

devido/PPA a_/PREP o/DA crescimento/CN negativo/ADJ de_/PREP a/DA economia/CN

portuguesa/ADJ em/PREP 2003/DGT .*//PNT ]]></s>

17

18

19 <s><![CDATA[Andreia/PNM Parente/PNM Fonte/PNM :*//PNT Diário/PNM Económico/PNM ]]><

/s>

20 </content>

21 </item>

A diferença quanto à categoria e ao marcador é a sua generalidade. Uma categoria é um mar-

cador mais geral, enquanto que uma tag é usada numa coleção relativamente pequena de notícias.

17

Page 34: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Processamento do arquivo de Notícias

Marcador Parte da Notíciatitle Título da Notíciasubtitle Subtítulo da NotíciapubDate Data de Publicaçãocreator Autor da Notíciaeditor Editor da Notíciacategory Categoria da Notíciatag Tag/Marcador da Notíciacontent Corpo da Notíciarelated Notícia Relacionada

Tabela 3.1: Marcadores XML de cada artigo no Corpus do JPN

18

Page 35: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Processamento do arquivo de Notícias

Tag Categoria ExemplosADJ Adjetivos bom, brilhante, eficaz, . . .ADV Adverbios hoje, já, sim, felizmente, . . .CARD Cardinais zero, dez, cem, mil, . . .CJ Conjunções e, ou, tal como, . . .CL Clíticos o, lhe, se, . . .CN Nomes Comuns computador, cidade, ideia, . . .DA Artigos Definidos o, os, . . .DEM Demonstrativos este, esses, aquele, . . .DFR Denominadores de frações meio, terço, décimo, %, . . .DGTR Números Romanos VI, LX, MMIII, MCMXCIX, . . .DGT Dígitos 0, 1, 42, 12345, 67890, . . .DM Marcas de Discurso olá, . . .EADR Endereço Eletrónico http://www.di.fc.ul.pt, . . .EOE Final de Enumeração etcEXC Exclamativos ah, ei, ...GER Gerúndios sendo, afirmando, vivendo, . . .GERAUX Gerúndios ’ter/haver’ tendo, havendo . . .IA Artigos Indefinidos uns, umas, . . .IND Indefinidos tudo, alguém, ninguém, . . .INF Infinitivos ser, afirmar, viver, . . .INFAUX Infinitivos ’ter/haver’ ter, haver . . .INT Interrogativos quem, como, quando, . . .ITJ Interjeições bolas, caramba, . . .LTR Letras a, b, c, . . .MGT Classes de Magnitude unidade, dezena, dúzia, resma, . . .MTH Meses Janeiro, Dezembro, . . .NP Frases de Nome idem, . . .ORD Ordinais primeiro, centésimo, penúltimo, . . .PADR Parte de Endereço Rua, av., rot., . . .PNM Parte de Nome Lisboa, António, João, . . .PNT Marcas de Pontuação ., ?, (, . . .POSS Possessivos meu, teu, seu, . . .PPA Passado Particípio afirmados, vivida, . . .PP Frases Preposicionais algures, . . .PPT Passado Particípio composto sido, afirmado, vivido, . . .PREP Preposições de, para, em redor de, . . .PRS Pronomes Pessoais eu, tu, ele, . . .QNT Quantificadores todos, muitos, nenhum, . . .REL Relativos que, cujo, tal que, . . .STT Títulos Sociais Presidente, dra., prof., . . .SYB Símbolos @, #, &, . . .TERMN Terminadores Opcionais (s), (as), . . .UM "um"ou "uma" um, umaUNIT Unidade Abreviada kg., km., . . .VAUX ’Ter/Haver’ composto temos, haveriam, . . .V Verbos falou, falaria, . . .WD Dias da Semana segunda, terça-feira, sábado, . . .LADV1. . . LADVn Adverbios Multi-Palavra de facto, em suma, um pouco, . . .LCJ1. . . LCJn Conjunções Multi-Palavra assim como, já que, . . .LDEM1. . . LDEMn Demonstrativos Multi-Palavra o mesmo, . . .LDFR1. . . LDFRn Denominadores Multi-Palavra por centoLDM1. . . LDMn Marcas de Discurso Multi-Palavra pois não, até logo, . . .LITJ1. . . LITJn Interjeições Multi-Palavra meu DeusLPRS1. . . LPRSn Pessoais Multi-Palavra a gente, si mesmo, V. Exa., . . .LPREP1. . . LPREPn Preposições Multi-Palavra através de, a partir de, . . .LQD1. . . LQDn Quantificador Multi-Palavra uns quantos, . . .LREL1. . . LRELn Relativos Multi-Palavra tal como, . . .

Tabela 3.2: LX-Suite Tagset

19

Page 36: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Processamento do arquivo de Notícias

20

Page 37: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Capítulo 4

Caracterização do Arquivo

Esta secção dedica-se à análise efetuada sobre o arquivo, desde a análise jornalística e mor-

fológica até à análise efetuada sobre os autores responsáveis pelos textos. No entanto algumas

análises são interdisciplinares, pelo que não se espera criar uma divisão clara entre cada análise,

mas sim um guia estruturado à caracterização do corpus.

4.1 Vista geral

O arquivo do JPN é constituído por 19 072 artigos, ao longo de 132 meses (Março de 2004-

Março 2015). No que diz respeito à distribuição dos artigos ao longo dos anos, apresenta-se o

seguinte gráfico (Figura 4.1a). Para além dos artigos publicados durante o período em análise, o

arquivo é composto de comentários efetuados pelos leitores às várias notícias. No total existem

cerca de 5665 comentários durante os 11 anos de análise.

(a) Número de artigos por ano (b) Distribuição de autores por número de artigos

21

Page 38: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

A autoria dos artigos divide-se entre 422 autores, alguns que só contribuem apenas para uma

única peça, enquanto que outros regularmente publicam novo material. De forma a analisar a

importância de cada tipo de autor para os métodos de publicação no jornal, foram usados grupos

que agregam e representam todos os autores com um número de artigos entre um certo intervalo.

O intervalo entre grupos é de 14 artigos e foi escolhido pois não é demasiado pequeno que aumente

desnecessáriamente a complexidade da análise, e não é demasiado largo que resulte numa análise

superficial e sem possibilidade da extração de conclusões. Foi acrescentado ainda o grupo ”1

artigo”, que representa os autores de intervenção única no jornal (Figura 4.1b). A média de artigos

por autor é de cerca de 45 artigos.

4.2 Análise Jornalística

4.2.1 Hábitos de Publicação

No que diz respeito aos hábitos de publicação do JPN, a Figura 4.2 mostra a distribuição

dos artigos ao longo dos meses do ano, revelando uma maior frequência de publicação de novos

artigos durante os meses de março, abril e maio, resultante do começo da atividade estagiária

dos estudantes no jornal universitário. Estes meses registam aproximadamente 10 artigos por dia,

enquanto que no mínimo de atividade do mês de agosto esta média é de apenas 1,4 artigos por dia.

Figura 4.2: Total número de artigos por mês

Em termos de publicações ao longo do dia, as 15, 16 e 17 horas são aquelas que apresentam

maior atividade. Durante a manhã, novos artigos têm maior probabilidade de serem publicados às

10 horas. Durante a madrugada (da 1 até as 6 horas), foram publicados no total 168 artigos, que

22

Page 39: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

representam 0,88% do total de artigos do arquivo. A Figura 4.3 mostra a restante distribuição das

publicações durante o dia.

Figura 4.3: Total número de artigos por hora

4.2.2 Vídeo Artigos

Como plataforma de jornalismo multimédia, o JPN publica ocasionalmente artigos onde o

corpo da notícia é composto unicamente por uma vídeo-reportagem ou uma vídeo-entrevista. A

identificação deste tipo de artigos pode ser feita ao isolar os artigos com a categoria “Vídeo” e

um corpo da notícia vazio. A Figura 4.4 mostra a evolução do uso da vídeo-reportagem no JPN

ao longo dos anos. O pico do uso do vídeo foi em 2008, com 3,8% dos artigos, tendo vindo

a decrescer até 2,1% no ano de 2014. Até ao mês de março de 2015 nenhum artigo-vídeo foi

publicado.

Do mesmo modo é interessante analisar quais as categorias de notícias que mais recorrem ao

uso do vídeo (Figura 4.5). As notícias com destaque principal são alvo de vídeo-artigos mais

frequentemente em relação a outras categorias. Da mesma forma, na categoria UP é usada por

vezes a vídeo reportagem devido à facilidade da captação de imagem e opiniões sobre os temas

discutidos, enquanto que, pela razão oposta, a categoria Mundo apenas excecionalmente apresenta

notícias com recurso ao vídeo.

4.3 Análise dos Visitantes

Uma das partes da análise ao corpus e ao jornalismo praticado pelo JPN passa pela caracteriza-

ção do tráfego do arquivo e dos leitores das notícias publicadas. De forma a atingir esse objetivo,

23

Page 40: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.4: Percentagem de vídeo artigos ao longo dos anos

Figura 4.5: Percentagem de vídeo artigos por categoria

24

Page 41: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

foram recolhidos alguns registos (logs) de servidor Apache, entre 28 de Março de 2012 e 31 de

Outubro de 2014. De seguida são apresentadas algumas observações quanto ao uso do JPN pelos

internautas.

4.3.1 Acessos e Visitantes

O termo acesso designa um pedido ao servidor Web. Um visitante pode efetuar vários acessos

numa única sessão, e a leitura de uma notícia pode resultar em mais que um acesso (imagens,

ficheiros, vídeos, etc). Desta forma, o número de acessos não representa uma medida de populari-

dade de confiança, mas sim uma estatística quanto ao tráfego e tipo de estrutura de um website.

Os acessos podem ser ainda separados por acessos de visitantes e acessos de spiders, onde o

primeiro representa um visitante humano enquanto que o segundo é realizado por um programa

desenhado para examinar o conteúdo de um website. Durante o período em análise, o JPN recebeu

mais de 254 milhões de acessos, 90,5 % destes provenientes de visitantes e 9,5% de spiders. Isto

significa que durante os 947 dias da análise, o website recebeu em média 268 700 acessos por dia.

4.3.2 Visualizações de Páginas

No que diz respeito à visualização de páginas/notícias, o JPN apresenta um total de aproxima-

damente 22 milhões de visualizações de páginas durante o período examinado. Isto resulta numa

média de 23 272 páginas visualizadas por dia.

4.3.3 Atividade

A atividade diária no website do JPN segue a distribuição na Figura 4.7, onde é possível

observar a quebra de atividade durante a madrugada e o pico de atividade por volta das 16 horas.

Quanto à atividade durante a semana, os visitantes utilizaram o JPN conforme a distribuição na

Figura 4.8. Durante o ano, a atividade atingiu o seu máximo nos meses de março, abril e maio,

tornando-se relativamente menor durante o período de Verão, como é evidente na Figura 4.6.

4.3.4 Pesquisas

As pesquisas representam as frases inseridas nos motores de busca que levaram os leitores às

páginas do JPN. Em termos de motores de pesquisa usados, o Google domina sendo responsável

por cerca de 94% das páginas visualizadas no JPN, seguido pelo motor de pesquisa português

Sapo, com 2.3%. A Tabela 4.1 mostra as frases de pesquisa mais populares durante o período de

análise.

4.3.5 Browsers Usados

Os browsers utilizados para aceder ao arquivo do JPN são apresentados na Figura 4.9, onde

se observa a competição entre o Internet Explorer e o Google Chrome, com 34,43% e 21.93% de

visualizações respetivamente, seguidos pelo Firefox com 15,59%. O acesso através de dispositivos

25

Page 42: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.6: Visitantes por mês

Figura 4.7: Visualizações de páginas por hora

móveis ao website do JPN é de aproximadamente 11% (Android Browser com 6,57% e o Mobile

Safari com 4,42%).

4.3.6 Comentários

O website do JPN possibilita aos leitores comentar as notícias publicadas, abrindo a possibili-

dade de uma análise ao nível do conteúdo gerado pelo público alvo do jornal. Durante o período

de vida do arquivo (2004-2015), foram publicados cerca de 5665 comentários que tiveram como

alvo 2178 artigos (11,4% do total de artigos). Se considerarmos apenas os artigos comentados, a

média de comentários aproxima-se de 2.6 publicações por artigo. O máximo de comentários numa

notícia é de 172, num artigo do ano de 2014. Existem 64 artigos com mais de 10 comentários.

26

Page 43: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.8: Visualizações de páginas por dia da semana

Frase Número de Pesquisasjpn 6251resumo 3569google nose 2968dia da terra 2013 1834queima das fitas porto 2012 1478haxixe 1270cartaz queima das fitas porto 2012 1160strict 1135dança contemporânea 1118noticias 1045

Tabela 4.1: Frases de pesquisa mais utilizadas

Em termos de hora da publicação de comentários, a distribuição é apresentada na Figura 4.10a,

onde é possível observar o pico de atividade durante a tarde. A sobreposição das horas de publica-

ção de comentários com as horas de publicação de novos artigos pode indicar-nos comportamentos

interessantes da parte dos leitores do jornal. A Figura 4.10b mostra essa relação, revelando a in-

clinação dos artigos para a publicação durante a tarde, enquanto que os comentários são feitos

relativamente mais durante a noite. A relação entre artigos e comentários é o ponto mais interes-

sante de analisar. Na Figura 4.11 é exibido o tempo desde a publicação de um novo artigo até

ao primeiro comentário, onde é possível observar que o primeiro comentário é publicado mais

frequentemente nas primeiras 3 horas.

27

Page 44: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.9: Browsers mais usados (Maio 2014)

(a) Distribuição de Comentários por Hora (b) Comparação da publicação de novos artigos e co-mentários por Hora

4.4 Análise Morfológica e Lexical

No que diz respeito à análise da composição elementar dos textos, destaca-se a grande impor-

tância das palavras dos artigos, assim como os comentários dos leitores, pois representam a sua

parte escrita. Define-se por palavra toda a construção de letras separada por um espaço em branco,

excluindo pontuação. O corpus apresenta assim aproximadamente 9 milhões de palavras. Cerca

28

Page 45: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.11: Horas até ao primeiro comentário após a publicação da notícia

de 8,7 milhões constituem o texto jornalístico em que 2,2% fazem parte do título da notícia, 6,1%

do subtítulo e os restantes 91,7% do corpo da notícia. As restantes 350 mil palavras constituem os

comentários realizados às notícias.

4.4.1 POS Tags

Uma anotação efetuada no corpus foi a marcação das partes do discurso (Part-of-Speech POS)

nos textos, com recurso à ferramenta LX-SUITE [BS06]. Esta anotação fornece uma informação

importante quanto ao uso pretendido da palavra, assim como ao estilo de escrita do autor do

texto. A distribuição geral ao longo do corpus das principais etiquetas é apresentada na Figura

4.12. Com a figura é possível observar o destaque dos nomes comuns, assim como a presença dos

elementos de construção de frases, como as preposições, os artigos, e as marcas de pontuação. Em

termos da relação tipos e unidades, a Tabela 4.2 mostra a contagem para as principais etiquetas,

assim com o rácio unidade para tipo, que permite observar o uso de uma etiqueta relativamente

ao tamanho do seu léxico (número de tipos). Nesta tabela é possível observar a grande variedade

de nomes comuns: cada tipo de nome comum aparece em média apenas 46 vezes no corpus,

enquanto que categorias como as conjunções apresentam um grupo lexical muito menor, sendo

muito mais reutilizadas. Os adjetivos também apresentam um grande conjunto de tipos. Esta

29

Page 46: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

tabela tem apenas em consideração as palavras do corpus, resultando na disparidade entre a Figura

4.12, que calcula a percentagem contando com todas as etiqueta (incluindo marcas de pontuação).

Figura 4.12: Frequência de cada etiqueta POS no arquivo

Na Tabela 4.3 é apresentada a relação da distribuição de POS tags com outro corpus português:

o Corpus de Referência do Português Contemporâneo (CRPC), de conteúdo geral. O CRPC usa

o mesmo esquema de anotação que o corpus do JPN, o que facilita a comparação entre as várias

categorias de partes da fala. Através da ferramenta disponível online 1, foram criados sub corpora

do CRPC compostos apenas com artigos de uma certa categoria, de forma a fazer a comparação

com o nosso corpus jornalístico: sub corpus de textos políticos, sub corpus de textos literários e sub

corpus de textos retirados de revistas. Para além da filtragem por tipo de texto, foram escolhidos

apenas textos oriundos de Portugal, de forma a comparar os géneros de textos e não as diferenças

linguísticas entre países.

POS Tipos Unidades Unidade por Tipo % no CorpusAdjetivos 16357 371086 22,68 4,896Advérbios 2105 271563 177,2 3,583Conjunções 81 330221 4076 4,357Nomes Comuns 31547 1463676 46,39 19,31Parte de Nome 49913 836579 16,76 11,03

Tabela 4.2: Unidades e tipos de algumas partes de discurso no JPN

1http://alfclul.clul.ul.pt/

30

Page 47: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

POS % no JPN % CRPC (Revista) % CRPC (Literário) % CRPC (Político)Adjetivos 4,896 5,548 4,650 5,186Advérbios 3,583 4,610 5,430 4,666Nomes Comuns 19,310 19,210 17,330 16,800Parte de Nome 11,030 6,070 3,477 8,980Passado Particípio 1,943 2,100 1,81 1,880Possessivos 0,355 0.736 1,170 0,706Títulos Sociais 0,029 0,074 0,150 1,310

Tabela 4.3: Comparação das etiquetas POS com outros corpora

A tabela evidencia as diferenças na distribuição das POS tags entre os diferentes tipos de tex-

tos. O texto jornalístico do JPN é o que mais usa os Nomes Próprios (conhecidos no tagset do

LX—SUITE como “Partes de Nome”), devido principalmente à sua natureza expositiva e notici-

osa. O texto jornalístico apresenta menos adjetivos que os outros tipos de textos à exceção do texto

literário. Ao mesmo tempo é interessante reparar no menor uso nos advérbios e possessivos. O

uso de títulos sociais (Presidente, dra. prof. ) também é relativamente pequeno e mais semelhante

aos textos de revistas, ao contrário do grande uso no texto político. Os nomes comuns também

estão em destaque no texto do JPN.

Um ponto interessante a analisar é a evolução do uso de certas etiquetas ao longo dos anos

do arquivo. Será que as notícias se tornam mais adjetivadas com o passar dos anos? Uso mais

frequente da pontuação? O Gráfico 4.13 mostra a evolução do uso de algumas etiquetas desde

o ano de 2004. Na Tabela 4.4 são apresentadas as diferenças em pontos percentuais do uso de

algumas etiquetas no corpus. Foi usada uma janela de 10 anos (2004 - 2014) para comparação. O

gráfico mostra um aumento no uso da pontuação, com alguma oscilação no uso de nomes comuns,

advérbios e adjetivos. No entanto, recorrendo à Tabela 4.4, conclui-se que não houve grande

alteração final na distribuição das etiquetas de POS entre os dois anos analisados.

POS 2004 2014 DiferençaAdjetivos 4.407 3.987 -0.42Advérbios 3.339 3.083 -0.26Nomes Comuns 16.12 16.11 -0.01Demonstrativos 0.821 0.767 -0.05Gerúndios 0.185 0.185 0Indefinidos 0.183 0.203 0.02Infinitivos 2.378 2.654 0.28Marcas de Pontuação 11.20 13.41 2.21Passado Particípio 1.653 1.543 -0.11Preposições 12.74 12.65 -0.08Relativos 1.392 1.442 0.05Verbo 8.369 8.125 -0.24Ter/Haver 0.105 0.073 -0.03

Tabela 4.4: Uso e evolução percentual de algumas tags

31

Page 48: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.13: Evolução das POS tags

A diferença na distribuição das POS tags no título, subtítulo e corpo da notícia está represen-

tada na Figura 4.14, onde é possível observar as diferentes constituições de cada secção. Os títulos

apresentam geralmente menos advérbios e verbos no infinitivo, ao mesmo tempo que são consti-

tuídos por partes de nomes e verbos em geral, refletindo a natureza indicadora do título: apresentar

os sujeitos e o que aconteceu. Por sua vez, os subtítulos apresentam a maior percentagem de no-

mes comuns, artigos e preposições, focando-se no esclarecimento do tema da notícia. O corpo da

notícia é composto por mais marcas de pontuação e advérbios, centrando-se na exposição com-

pleta da notícia. Uma característica interessante a observar na Figura 4.14 é a natureza intermédia

do subtítulo. Enquanto que por vezes é a secção com a maior presença de uma certa parte da fala,

o subtítulo nunca é a secção com menor frequência nas POS apresentadas, tomando a maioria

das vezes uma posição intermédia em relação ao título e ao corpo da notícia. Usando o exemplo

dos verbos em que o título apresenta uma maior percentagem em relação ao corpo da notícia, é

possível observar que a percentagem de verbos no subtítulo encaixa-se mesmo no meio das duas

secções extremas. Isto suporta a ideia que a informação jornalística segue uma pirâmide inver-

tida: o artigo foca-se na exposição da notícia em geral primeiramente, expandindo os detalhes no

32

Page 49: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

seguinte texto. Esta estrutura pode surgir tanto no texto do corpo da notícia como na informação

divulgada em cada secção do artigo, neste caso o título, subtítulo e corpo.

Figura 4.14: Percentagem de POS tag por cada secção

4.4.2 POS tags nos comentários

Os comentários efetuados às notícias representam um conjunto de textos livres merecedores de

uma analise e comparação com os textos dos artigos. Na Figura 4.15 são apresentadas as principais

etiquetas POS usadas nos comentários que, quando comparada com a Figura 4.12 representante

da distribuição das partes da fala nas notícias, revela um menor uso de nomes comuns e marcas

de pontuação mas um aumento significativo no uso de partes da fala como os verbos e advérbios.

Os artigos definidos são outras etiquetas que se diferenciam: os comentadores utilizam-nos menos

3 pontos percentuais do que nos artigos de notícias. Outras variações que não estão presentes

na figura mas que se revelam interessantes são o maior uso de interjeições, infinitivos, pronomes

pessoais e demonstrativos nos comentários em relação ao texto jornalístico.

33

Page 50: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.15: Percentagem de POS tag nos comentários

4.4.3 Frases

Uma notícia textual é composta por frases, pelo que é importante focar este elemento na carac-

terização dos textos do arquivo. O arquivo apresenta 296 957 frases na totalidade, o que significa

uma média de 15,5 frases por artigo. A observável descida da média de frases por artigo na Fi-

gura 4.16a pode ser explicada pela inclusão dos vídeo-artigos: artigos de notícias que apresentam

apenas um vídeo como conteúdo, não sendo compostos por texto no corpo da notícia. Estes vídeo-

artigos tornaram-se mais populares nos últimos anos. Em termos de palavras por frase, existe a

evolução apresentada na figura 4.16b, onde se observa a subida considerável de 21,5 palavras por

frase em 2004 até às 26 palavras por frase em 2015, o que significa uma considerável diferença

em termos de composição de frases no arquivo. Os comentários por sua vez apresentam em média

3,67 frases por artigo.

34

Page 51: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

(a) Média de frases por artigo (b) Média de palavras por frase

4.4.4 Léxico

Quanto ao léxico do arquivo, ou seja o conjunto de palavras usadas nos seus textos, são menci-

onadas 120 558 palavras únicas (tipos). A quantidade de palavras únicas por notícia apresenta-se

uma medida importante para a qualidade, experiência e tipo de narrativa usada pelo autor. A me-

dida TTR (Type Token Ratio) [Her60] é calculada dividindo o número de tipos (palavras únicas)

e os tokens (todas as palavras) presentes num texto de tamanho padrão, como é apresentado na

equação 4.1. O tamanho do texto é muito importante pois enquanto que uma notícia curta pode ter

um TTR de 4.0, outra maior apresenta um TTR muito mais pequeno, mesmo sendo escrita pelo

mesmo autor. O aparecimento de palavras únicas decresce obviamente com o tamanho do texto,

pelo que o TTR se torna uma medida relativa, útil para comparar textos de igual dimensão. Nesta

sentido foi escolhido o tamanho de 300 palavras antes do cálculo do TTR, de forma a uniformizar

os textos e tornar a comparação do TTR relevante. A Figura 4.17 apresenta a evolução do TTR ao

longo dos anos, onde se pode ver o aumento da medida, desde o seu mínimo em 2008 até ao maior

valor registado em 2015. De notar que os valores de TTR mantêm-se relativamente semelhantes e

a diferença não é muito significativa.

T T R =TypeToken

×100; (4.1)

Uma importante medida quanto ao léxico do arquivo são os nomes comuns mais usadas no

corpus (tabelas 4.8 e 4.9). De forma a comparar com outros corpora e observar as diferenças

na frequência do uso de certas palavras, comparamos as palavras mais usadas no JPN com a sua

percentagem de uso no CETEMPúblico, CRPC Literário e CRPC Político, na Tabela 4.5: como é

era esperado, as palavras “Porto”, “Universidade”, “Cultura” apresentam um foco maior no jornal

académico nortenho, enquanto que “governo” e “presidente” são palavras mais da área do texto

político. O CETEMPúblico, devido à sua maior abrangência nacional, menciona mais a cidade de

“Lisboa” do que os restantes sub corpora.

35

Page 52: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.17: Média TTR ao longo dos anos

Uma palavra do léxico com mais interesse em analisar é a palavra “Porto”. De forma a registar

o uso geral desta palavra no nosso corpus, é analisada a chamada concordância [Sin91] da palavra,

onde se observa a colocação da palavra numa janela textual. Neste caso de estudo, usamos uma

janela de 10 átomos (palavras e pontuação) antes e depois da menção da palavra “Porto”. A Tabela

4.6 mostra a concordância de “Porto” no jornal JPN, onde é possível ver os diferentes casos de

uso da palavra, tanto num contexto académico (UP), civil (Governo) e desportivo (Futebol Clube

do Porto). Nas ocorrências da palavra “Porto” (no total 24 287), cerca de 4734 (19,49%) estão

colocadas com a palavra “Universidade”, enquanto que apenas 13 (0,05%) estão colocadas com as

iniciais “F. C. ’ A palavra “cidade” aparece 1758 vezes (7,2%), enquanto que “Câmara” surge 2229

vezes (9,1%). De forma interessante, a palavra “vinho” é mencionada apenas 91 vezes (0,37%) no

JPN, enquanto que no sub corpus literário do CRPC a palavra é colocada 44 (4,88%) das 900 vezes

que “Porto” é mencionado. A palavra “Câmara” por sua vez só é mencionada 3 vezes (0,33%) no

corpus literário. A Tabela 4.7 mostra mais algumas comparações entre as colocações de “Porto”

entre diferentes corpora, onde se destacam a preferência pela colocação da palavra “Lisboa” no

texto político, da palavra “vinho” no texto literário e a palavra “universidade” no JPN.

A concordância da palavra “Porto” é bastante informativa quando explorada no título da no-

tícia. Apresentadas na Tabela 4.10 estão as colocações mais comuns com a palavra Porto. Com

a tabela é possível observar a prevalência de “Universidade” como grande acompanhadora da pa-

lavra “Porto”, seguida de “FC”, “Câmara” e “Metro”. Nos nomes comuns, o destaque é para

“ruas” e “noite”, que podem ser explicados pela promoção efetuada pelo JPN quanto às atividades

36

Page 53: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Palavra JPN CETEMPúblico CRPC Literário CRPC PolíticoPortugal 0.151 0.092 0.013 0.068Porto 0.454 0.066 0.013 0.023pessoas 0.125 0.060 0.062 0.027Lisboa 0.045 0.090 0.02 0.024presidente 0.079 0.072 0.003 0.410universidade 0.117 0.019 0.002 0.006governo 0.057 0.070 0.005 0.260cultura 0.035 0.020 0.004 0.017homem 0.010 0.027 0.110 0.016

Tabela 4.5: Palavras e o seu uso percentual em cada sub corpora

na cidade do Porto. Em termos de adjetivos, o aparecimento dos qualificadores “novo”, “nova”,

“melhores”, “grande” e “bom” evidencia a difusão das melhorias e bons aspetos do Porto no JPN.

Nos advérbios, “mais”, “já” e “ainda” são as principais palavras íntimas com “Porto” nos títulos

das notícias. Finalmente nos verbos, podemos compreender que tipo de predicados são aplicados

à cidade do Porto, observando em primeiro lugar o verbo “ser” no tempo Presente, seguido dos

verbos “vai” e “recebe”, que voltam a mostrar a natureza promocional do JPN quanto à cidade do

Porto.

4.4.5 N-Gramas

N-gramas (ngrams) [BDM+92] são sub sequências de N itens de uma dada sequência geral.

Os n-gramas são usados extensivamente na criação de modelos de linguagem, onde são utiliza-

dos na previsão da probabilidade de uma certa sequência de palavras. No entanto a sequência

de itens não necessita ser exclusivamente palavras, podendo ser composta por letras, fonemas e

outros elementos básicos de sequências. A análise do corpus com base em n-gramas permite a

caracterização ao nível das expressões utilizadas no texto jornalístico do JPN. Primeiramente fo-

ram extraídos do corpus bigramas (subsequências de 2 itens), ordenados por frequência na Tabela

4.12. Os sinais de pontuação foram ignorados não contribuindo para formação de subsequências.

A maioria dos bigramas mais frequentes são constituídos apenas pelos elementos dos artigos e

preposições compostos que foram desmembrados no processo de anotação do arquivo (p. ex. “de_

a” que corresponde a “das”). Na tabela são mostrados os bigramas com maior valor para uma

análise linguística, onde se destaca novamente o foco na cidade do Porto do JPN. Depois destes

primeiros resultados, o modelo foi aumentado para trigramas e pentagramas, com os resultados

expostos na Tabelas 4.13 e 4.14, onde a frequência dos n-gramas são também comparados com

outros corpora de natureza diferente.

O léxico dos comentários também se apresenta diverso do léxico dos artigos do JPN. O aspeto

mais importante no que diz respeito aos comentários é a sua natureza apreciadora, que tanto pode

incidir sobre o tema discutido na notícia como no próprio artigo (qualidade de escrita, reflexões

sobre o autor, trabalho jornalístico, etc.). A Tabela 4.11 compara a frequência de alguns adjetivos

dos comentários com a sua antítese, provando uma atitude e julgamento geralmente positivo da

37

Page 54: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Contexto anterior Palavra Contexto posteriore Ciências de_ a Comunicação de_ a Universidade de_ o Porto ( UP ) Embora curiosos sobre um eventual

em_ a Faculdade de Direito de_ a Universidade de_ o Porto , afirma a_ o JornalismoPortoNet que a Constituição ”, foi hoje até a_ o Governo Civil de_ o Porto para formalizar o protocolo para a recuperação de_ a ponte

quatro entidades - Governo , Câmaras Municipais de_ o Porto e Gaia e Refer - o protocolo vaiPara Manuel Moreira , governador civil de_ o Porto , este é um projecto ” simbólico ”

pois irá criar um novo ponto de comunicação entre o Porto e Vila Nova de Gaia , mas de_ estamarcou a única competição que o F . C . Porto perdeu em_ o ano de 2003 , com o

Tabela 4.6: Concordância da palavra “Porto” no JPN

parte dos leitores que comentam o jornal. A Tabela 4.15 ilustra ainda alguns pentagramas presentes

nos comentários.

4.5 Análise Categórica

Como foi esclarecido no Capitulo 3, a cada notícia é atribuída uma ou mais categorias que

indicam um dos tema gerais representado. Da mesma forma, as notícias podem apresentar marca-

dores (tags), que assinalam um subtema mais específico e efémero, relevante apenas no contexto

temporal em que a notícia se insere. As categorias gerais que identificamos como mais relevantes

são apresentadas na figura 4.18. Estas categorias líderes serão aquelas a que nos estamos a referir

quando mencionarmos categorias. De notar, novamente, que uma notícia pode apresentar mais

que uma categoria. A primeira análise interessante é a distribuição das categorias ao longo dos

anos do arquivo, na Figura 4.19.

Com a figura podemos observar um declínio de temas sobre o “País”, “Mundo” e “Desporto”,

enquanto que os outros tópicos sofrem geralmente um aumento de frequência. A categoria de

“Deporto” apresenta picos relativos em três anos, certamente relacionados com os Mundiais de

Futebol de 2006, 2010 e 2014. A “UP” ganha a maior notoriedade no ano de 2010, um ano antes

de comemorar o centenário em 2011, onde sofre uma queda. A categoria “Mundo” vai perdendo

presença desde 2004, até ao mínimo de 2009 onde regista apenas 2,6% de participação nas notícias

desse ano. Interessante também é a subida do tema “Porto”, desde os 9,3% de 2004 até aos 54,9%

de 2015, compondo mais de metade dos artigos do JPN. De um modo similar, a categoria “Cultura”

cresce do mesmo ponto em 2004 e acaba em 48,3% no ano de 2012. A categoria “País”, embora

tenha sido alvo de um menor número de artigos de 2006 a 2010, encontra-se em 2015 posicionada

como a terceira categoria mais comum nas notícias do JPN.

4.5.1 POS Tags nas Categorias

No que diz respeito à distribuição de POS tags nas categorias do arquivo, a Figura 4.20 evi-

dencia a preferência pelas tags de cada uma. Os nomes comuns são usados mais frequentemente

na “Ciência e Tecnologia” e na “Educação”, enquanto que as Partes de Nome (nomes próprios)

lideram na categoria de “Desporto”, devido principalmente aos inúmeros atores envolvidos nas

38

Page 55: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Palavra JPN CRPC Literário CRPC Políticouniversidade 19.49 0.33 2.79cidade 7.2 4.22 8.84metro 4.12 0.33 5.62municipal 4.53 0.00 4.07Lisboa 2.22 3.99 23.1caminho 0.13 1.77 0.27Douro 0.28 0.78 1.61vinho 0.37 4.88 5.80norte 0.89 0.77 2.14tempo 0.74 2.10 0.95

Tabela 4.7: Colocações (%) da palavra ’Porto’ em diferentes corpora

notícias desportivas. Em termos de adjetivos, a Figura 4.21 mostra a maior prevalência na “Ciên-

cia e Tecnologia” e na categoria sobre o “Mundo”, surgindo em menor número no “Desporto” e

“Porto”, categorias debruçadas especialmente na divulgação de eventos passados e na promoção

de novos eventos no futuro. Os verbos são praticamente igualmente representados nas catego-

rias, tendo apenas menos alguns pontos percentuais nas categorias de “Economia” e “Educação”.

Em termos de Advérbios, o “Deporto” é a principal categoria. Ainda na distribuição das POS

tags, a Figura 4.22 apresenta a grande presença dos Dígitos nas categorias “Economia” e “Des-

porto”, onde naturalmente se revelam números; para além disso, os Demonstrativos e os Relativos

destacam-se pela sua baixa presença no “Desporto”.

4.5.2 Léxico nas Categorias

Como abordam assuntos diferentes, é de esperar que o conjunto lexical mais usado seja diverso

em todas as categorias. Como a análise efetuada na subsecção 4.4.4, foram extraídas as palavras

comuns e adjetivos mais usados em cada categoria. Na categoria “Desporto” o léxico é, como seria

de esperar, composto por palavra como “jogo”, “equipa”, “final” e outro. A presença da palavra

futebol nas 10 palavras mais usadas confirma-a como modalidade mais popular. Na “Cultura” a

Nome % de Nomes Comunsanos 0.978ano 0.762pessoas 0.701presidente 0.535dia 0.499projecto 0.469país 0.464cidade 0.421parte 0.417

Tabela 4.8: Nomes Comuns mais usados noarquivo do JPN

Adjetivo % de Adjetivosgrande 1.497maior 1.408novo 1.308nova 0.902nacional 0.900portuguesa 0.895melhor 0.858social 0.827português 0.791

Tabela 4.9: Adjetivos mais usados no ar-quivo do JPN

39

Page 56: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Palavra OcorrênciasNomes Comunscidade 2.947anos 2.612ruas 1.239noite 1.038cinema 1.038ano 0.971música 0.937Adjetivosnovo 1.607nova 0.971melhores 0.468bom 0.435maior 0.435grande 0.435melhor 0.401novos 0.368europeu 0.334novas 0.334culturais 0.301cultural 0.267Advérbiosmais 3.482já 2.277não 2.243ainda 0.636hoje 0.535também 0.435só 0.401quase 0.334Partes de NomeUniversidade 4.420FC 4.387Câmara 4.018Metro 3.750Queima 2.746Cultura 2.210Baixa 2.109Liga 1.875Festival 1.339Verbosé 4.588vai 4.420recebe 2.545há 2.310está 2.009ser 1.808ter 1.306

Tabela 4.10: Colocações (%)da palavra “Porto” nos títulosdas notícias do JPN

Adjetivo Frequênciagrande 387

pequeno(a) 65bom 356boa 307

mau 44maior 176

melhor 329pior 42

interessante 84novo(a) 194velho(a) 16

Tabela 4.11: Alguns adjetivos comuns noscomentários

40

Page 57: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Bigram Ocorrência por milhão de palavraso Porto 2956,99a Universidade 1017,64que não 871,5presidente de_ 671,75as pessoas 652,00em Portugal 617,34acredita que 182,52

Tabela 4.12: Alguns bigramas

Trigram Ocorrência 1 JPN Ocorrência CRPC Literário Ocorrência CRPC Políticomilhões de euros 215,288 0,00 0,31a_ o longo 213,972 55,24 89,59em_ o entanto 516,136 111,34 233,33de acordo com 299,677 17,13 161,03o ano passado 190,424 4,34 8,5mais uma vez 46,509 35,62 77,84a nível nacional 43,73 0,74 10,32este é um 52,21 1,37 24,98por sua vez 37,14 19,98 23,02momento em que 36,41 32,4 44,56fazer com que 29,98 3,85 7,74depois de tanto 0,58 1,49 0,31

Tabela 4.13: Alguns trigrams e a sua comparação com outros corpora

atenção prende-se na palavra “festival”, refletindo a grande oferta de festivais e festas de Verão

em Portugal. A palavra “música” ocorre com mais frequência que a palavra “cinema”, mas se

considerarmos a palavra “filme”, então a sétima arte acaba por se tornar um tópico mais referido

nas notícias do JPN. No “Mundo” destacam-se as palavras “país”, “presidente” e “governo”, reve-

lando a inclinação política das notícias desta categoria. Finalmente na “Educação”, o foco está nos

“alunos” e no “ensino” “superior” e na “universidade”, devido à natureza universitária do JPN.

4.5.3 Popularidade das Categorias

Aliando a análise dos registos do servidor de JPN, durante os anos de 2012, 2013 e 2014, é

possível inferir a popularidade das categorias ao consultar as páginas mais visualizadas durante

o período referido. A Figura 4.23 mostra o número de visualizações por categoria. A categoria

de “Ciências e Tecnologias” é surpreendentemente aquela que consegue arrecadar o maior valor

de visualizações por cada artigo. De seguida, “Destaque Principal” e “País” apresentam o maior

número de visualizações, seguidas do “Porto” e “Mundo”.

Os comentários são também um bom indicador do nível de discussão que um artigo promove.

No entanto, algumas categorias são naturalmente publicadas com maior frequência que outras.

Neste sentido, é importante normalizar o valor de cada comentário por notícia, pelo que é usada

41

Page 58: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Pentagram Ocorrência 1

a universidade de_ o porto 618,51de_ a universidade de_ o 528,86a câmara de_ o porto 158,83a cidade de_ o porto 152,25universidade de_ o porto up 121,83câmara municipal de_ o porto 115,98a câmara municipal de_ o 108,81a casa de_ a música 105,59de_ a câmara de_ o 71,95a queima de_ as fitas 68,44

Tabela 4.14: Pentagrams mais frequentes

Figura 4.18: Categorias mais frequentes

a métrica “comentário por artigo” invés de o número total de comentários aos artigos de uma

categoria. A Figura 4.24 mostra a maior atividade da opinião do leitor nas categorias “Desporto”,

“Ciências e Tecnologias” e “UP”. As notícias em “Destaque Principal” apresentam ainda um maior

nível de comentários que as restantes categorias.

42

Page 59: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Pentagram Ocorrência 1

a cidade de_ o Porto 70,43a Queima de_ as Fitas 51,22a sede de_ a PIDE 44,82a_ o contrário de_ o 44,82de_ a Universidade de_ o 44,82em_ a sede de_ a 38,42de_ a cidade de_ o 38,42o contrário de_ o que 35,21Câmara Municipal de_ o Porto 32,01a tiro por_ a GNR 32,01que li em_ o comentário 28,81Figueira ou a Vila Real 28,81esperamos sempre construtivos que escrevem 28,81a estudar os países de_ 28,81cabo de_ a Vossa geração 28,81os ouvidos de_ os nossos 28,81

Tabela 4.15: Pentagrams mais frequentes nos comentários

4.6 Análise de Autores

Um dos pontes fortes do arquivo do JPN é a diversidade de contribuidores para a criação de

notícias, o que o torna uma fonte interessante de análise das diferenças entre os vários autores.

Como foi referido na secção de vista geral 4.1, foi usada a ideia da divisão dos autores pelo

número de artigos que escreveram, criando “contentores” que representam todos os autores com

um número de artigos num certo intervalo (p. ex. 0 a 50 artigos, 50 a 100 artigos, etc.). Espera-se

que esta divisão possa revelar alguns hábitos de publicação e características de escrita divergentes

entre os autores mais experientes e ativos face aos autores inexperientes e de contribuição única.

A divisão em contentores é feita de 14 em 14 artigos, existindo ainda o grupo “1 artigo”, que

representa os autores de contribuição única para o JPN, e o grupo “mais de 74 artigos”, que aglo-

mera os autores com mais 75 ou mais artigos (Figura 4.1b). Cerca de 55 dos autores contribuíram

com apenas um único artigo para o jornal, representando, na maioria, autores convidados, en-

quanto que 139 autores (aproximadamente 32%) publicaram entre 2 a 14 artigos. Existem ainda 3

autores com mais de 1000 artigos no JPN, que são agregados na categoria de “mais de 74 artigos”,

com 32 autores (7,5%). Esta última categoria representa os autores experientes e que contribuem

ativamente para o arquivo.

4.6.1 POS Tags

De forma a ser possível perceber as diferenças entre os diferentes autores e o seu número

de artigos, o intervalo entre grupos foi aumentado para 50 artigos. Na análise das POS tags no

contexto destes grupos, o resultado é apresentado na Figura 4.25. A figura mostra a igualdade de

uso das POS tags entre utilizadores, não existindo uma diferença significativa de grupo para grupo.

43

Page 60: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.19: Evolução das categorias ao longo dos anos

4.6.2 Categorias

Uma característica interessante é a distribuição de categorias por grupo de autor, apresen-

tado na Figura 4.26. Em termos de percentagem de artigos, a categoria “Economia” apresenta

o maior número de autores “convidados”, onde cerca de um terço dos autores das suas notícias

são contribuintes únicos para o arquivo. “Economia” é também a categoria que os autores mais

ativos evitam, com apenas 7% de participação na criação de notícias económicas. Inversamente,

os autores com mais de 100 artigos no seu histórico são os principais criadores das notícias com

“Destaque Principal”, devido certamente à sua experiência. Os autores com mais que uma con-

tribuição (2 a 49 artigos) são, para além da “Economia”, ativos na “Ciência e Tecnologia” e na

“Educação”, onde apresentam contribuições de 28% e 30% respetivamente. Os autores regulares

com 50 a 99 artigos participam aproximadamente de igual forma em todas as categorias, à exceção

da “Educação”, onde só possuem autoria de 22% dos artigos.

44

Page 61: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.20: Distribuição de nomes comuns, partes de nome e preposições nas categorias

4.7 Relações entre Notícias

As notícias do arquivo do JPN podem ser relacionadas com uma ou mais notícias, conforme

o juízo do autor do artigo. A análise destas relações entre notícias pode revelar relevantes tópicos

e notícias cruciais para a interligação entre temas do arquivo. De forma a analisar o corpus a este

nível, foram tidas em conta todas as notícias dos anos 2004, 2005, 2006 e 2007. Apenas se pro-

cessaram estes 4 primeiros anos do arquivo para não aumentar consideravelmente a complexidade

do grafo em análise, que possui neste caso cerca de 3208 nós e 6446 ligações. A Figura 4.27 apre-

senta o grafo das notícias (nós) e as relações entre si. Os grupos mais relevantes são compostos

por notícias da Universidade do Porto e as respetivas faculdades. Neste caso o relacionamento é

feito através de uma notícia, de título: ”À descoberta da Universidade do Porto”, que funciona

como ”ponte” entre os dois grupos. Na Figura 4.28 é possível identificar este tipo de notícias que

45

Page 62: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.21: Distribuição de adjetivos, advérbios e verbos nas categorias

relacionam grandes grupos de notícias. O tamanho do nó destas notícias é proporcional ao seu

atributo de nome Betweenness Centrality [Ley07], que está relacionado com o número de cami-

nhos mais curtos que passam pelo nó em questão numa rede de nós. Por outras palavras, estes

nós com grande medida de Betweenness Centrality são uma espécie de ”coração” da sub-rede em

que se encontram, efetuando a maioria das ligações dos seus nós. No grafo é possível observar a

importância de artigos como “Ratzinger é o novo Papa”, “O regresso do perigo Nuclear” e “FCUP

- A Exatidão das Ciências”.

4.7.1 Categorias

No Capitulo 3 foram mencionados marcadores que identificam a categoria da notícia. A mai-

oria destes marcadores (p. ex. Ribeira do Porto) são de uso relativamente mais específico e de

menor frequência do que as categorias mais gerais como Cultura, Desporto, etc. As relações entre

46

Page 63: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.22: Distribuição de demonstrativos, dígitos, quantidades e relativos nas categorias

estas subcategorias e categorias é apresentado no grafo da Figura 4.29, onde o tamanho do nó é

proporcional ao número de artigos com esse marcador. A categoria Porto destaca-se obviamente

dos restantes nós, acompanhada pela cultura, UP, e Música. Portugal, Política e Futebol são outras

categorias e marcadores relevantes.

47

Page 64: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Palavra % de Palavras em Desportojogo 0,306equipa 0,286final 0,177lugar 0,177golo 0,162pontos 0,159minutos 0,155vitória 0,133clube 0,118futebol 0,109

Tabela 4.16: Adjetivos/Nomes comuns maisusados na categoria Desporto

Palavra % de Palavras em Culturaanos 0,180festival 0,151ano 0,148público 0,135dia 0,123pessoas 0,121música 0,120cinema 0,107edição 0,100filme 0,089

Tabela 4.17: Adjetivos/Nomes comuns maisusados na categoria Cultura

Palavra % de Palavras em Mundopaís 0,160países 0,153anos 0,144pessoas 0,137presidente 0,136governo 0,122eleições 0,083dia 0,081acordo 0,080primeiro-ministro 0,074

Tabela 4.18: Adjetivos/Nomes comuns maisusados na categoria Mundo

Palavra % de Palavras em Educaçãoensino 0,356alunos 0,291estudantes 0,258superior 0,217ano 0,198professores 0,162anos 0,155universidades 0,144escolas 0,135instituições 0,130

Tabela 4.19: Adjetivos/Nomes comuns maisusados na categoria Educação

48

Page 65: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.23: Categorias mais populares (visualizações por artigo)

49

Page 66: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.24: Comentários por artigo nas diversas categorias

50

Page 67: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.25: POS Tags por grupo de autor

51

Page 68: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.26: Categorias por autor

52

Page 69: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.27: Grafo das relações entre notícias

53

Page 70: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.28: Nós com maior valor de centralidade

54

Page 71: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

Figura 4.29: As tags mais comuns no arquivo

55

Page 72: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Caracterização do Arquivo

56

Page 73: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Capítulo 5

Conclusões e Trabalho Futuro

No que diz respeito à satisfação dos objetivos, esta dissertação tinha como propósito o proces-

samento e caraterização de um arquivo de notícias português. O arquivo é composto por 19 072

artigos da autoria de mais de 422 autores, para além dos 5665 comentários criados pelos leitores

dos artigos. O arquivo cobre cerca 11 anos de conteúdo jornalístico sobre diferentes tópicos e ca-

tegorias. A análise ao arquivo revelou diversos pontos e características interessantes tanto de um

corpus jornalístico como do próprio JPN. Primeiramente foi feita uma análise quanto aos hábitos

de publicação do jornal, que revelou como picos de atividade os meses de março, abril e maio

e uma publicação de novos artigos mais frequentemente durante a tarde. A análise jornalística

revelou ainda a crescente popularidade dos vídeo-artigos, que incidem principalmente sobre notí-

cias relacionadas com a Universidade do Porto (UP). De seguida foi foi feita uma análise quanto

aos visitantes do jornal online, que revelou os hábitos de acesso dos leitores e a escala do tráfego

recebido pelo JPN. Os termos de pesquisa também foram analisados, assim como os textos cria-

dos e publicados nas páginas de notícias pelos leitores, em forma de comentário. A análise aos

textos jornalísticos do arquivo mostrou que os textos noticiosos seguem a conhecida estrutura da

pirâmide invertida: os subtítulos são por norma 3 vezes maiores que os títulos e os corpos das no-

tícias 10 vezes maiores que os subtítulos, contendo mais que 9% do conteúdo jornalístico de uma

notícia. Através da análise morfológica foi feita a identificação das partes da fala mais frequentes,

onde se destacam os nomes comuns, preposições e artigos definidos como as mais usadas. Os

nomes comuns, adjetivos e partes de nome são as partes da fala com mais variedade: um tipo novo

surge a cada 46, 22 e 16 palavras respetivamente. A comparação com outros corpora de diferente

natureza textual foi efetuada e foi observada a maior frequência de partes de nome e nomes co-

muns no texto jornalístico quando comparado com textos literários, políticos e de revista. O texto

jornalístico do JPN apresenta-se também com menos advérbios que os textos dos sub corpora li-

terários e políticos do RCCP. Em termos de evolução do uso das partes da fala, não foi registada

uma alteração significativa: o uso das marcas de pontuação aumentou aproximadamente 2 pontos

percentuais enquanto que outros tipos desceram de frequência como os adjetivos e os advérbios.

A composição das partes da fala nas diferentes secções das notícias também foi analisada e foi

observada uma relevante diferença nalgumas etiquetas. Os títulos provaram ser ligeiramente mais

57

Page 74: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Conclusões e Trabalho Futuro

adjetivados e compostos por quase um quarto de partes de nome, quase 30 % mais que os corpos

das notícias. Os subtítulos por sua vez são relativamente mais compostos por nomes comuns e ar-

tigos definidos, enquanto que no corpo da notícia é mais frequente observar marcas de pontuação

e verbos no infinitivo. Em termos de frases foi observada uma evolução significativa no número

de frases por artigo, que decresceu bastante desde o ano 2004 até 2015. O número de palavras

por frase, por contrário, aumentou no mesmo período de tempo. O léxico do arquivo foi um dos

principais focos da dissertação. Na análise lexical foram registados 120 558 tipos de palavras. De

forma a medir a riqueza lexical dos artigos, foi calculada a medida TTR (Type per Token Ratio

ao longo dos anos, onde se observou um mínimo em 2008 seguido da subida quase constante até

2015. Em termos concretos das palavras utilizadas, foram analisadas as frequências e percenta-

gens de uso de certos exemplos, seguindo-se a comparação com um corpus jornalístico e outros

corpora. Através deste estudo foi possível confirmar o foco do JPN nas matérias académicas pas-

sadas no Norte do país, mais especificamente na cidade do Porto e na sua universidade (UP). O

jornal tem também uma menor inclinação política que o outro corpus jornalístico usado para com-

paração (CETEMPúblico). O JPN aborda ainda o tema da cultura mais frequentemente que o seu

CETEMPúblico. De forma a aprofundar a abordagem do JPN ao tema da cidade do Porto, foi

feita uma análise à concordância da palavra “Porto", revelando a proximidade com palavras como

“universidade", “cidade"e “câmara". O JPN aborda assim diferentes aspetos da cidade do Porto

comparado com outros corpora portugueses, que apresentaram mais frequentemente colocações

como “vinho", “Lisboa"e “Douro". Uma análise referente às diferentes expressões no texto do

JPN foi efetuada, comparando a frequência de alguns n-gramas em diversos corpora, que revelam

a natureza expositiva e de divulgação de informação do texto jornalístico.

Depois da análise morfológica foi efetuado um estudo quanto às categorias das notícias pre-

sentes no artigo. Este estudo revelou que 18 % das notícias são consideradas como “destaques",

e cerca de 4 % como “destaque principal". Esta análise também revela a importância do tópico

“Porto", bem como “Cultura", “Ciências", “Mundo", “País"e “UP". O foco nestas categorias evo-

lui consideravelmente desde o inicio do jornal, que principalmente virou a sua atenção para o

“Porto"e para a “Cultura", enquanto que deixou de publicar tantos artigos sobre “Desporto"e as

“Ciências e Tecnologias". Os textos das categorias foram alvo também de uma análise quanto à

sua composição morfológica, revelando tanto maior adjetivação de algumas categorias (“Mundo")

como um maior uso de nomes comuns nos seus artigos (“Ciência e Tecnologia"e “Educação"). O

Léxico nas categorias também foi analisado, expondo as diferentes palavras mais usadas em cada.

Ainda na caracterização das categorias, foi efetuada uma análise à sua popularidade, com ajuda

dos registos de acessos e comentários aos artigos, que divulgou a categoria “Desporto"com o maior

número de comentários por artigo e “Ciência e Tecnologia"com o maior número de visualizações

por artigo.

No que diz respeito aos autores dos autores dos artigos, foi feita uma comparação das partes

da fala e das categorias dos artigos sobre o número de artigos por autor. Esta análise revelou não

haver muita diferença na distribuição das partes da fala entre autores com mais e menos artigos,

revelando no entanto a preferência dos autores mais experientes (com mais de 100 artigos) da es-

58

Page 75: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Conclusões e Trabalho Futuro

crita dos artigos de destaque principal. A categoria com mais autores convidados (ou seja, autores

que escreveram apenas um 1 artigo no total da sua contribuição para o JPN) foi “Economia".

A relação entre notícias foi também analisada, dando a descobrir a existência de diversos

tópicos e grupos de notícias que se interligam sem ligação com o resto do arquivo. A identificação

de notícias chave com a capacidade de ligação entre vários grupos e tópicos também foi efetuada.

Em termos de marcadores UP, Música, Portugal e Futebol são os marcadores mais relevantes.

5.1 Trabalho Futuro

O trabalho futura passa pelo aprofundamento da análise ao texto jornalístico, explorando uma

caracterização a novos níveis e combinando diferentes análises para a descoberta de detalhes im-

portantes da composição de artigos de notícias. Uma interessante abordagem seria o uso dos

conteúdos noticiosos no corpus para a geração automática de texto, com recurso a métodos esta-

tísticos. Os textos gerados poderão revelar uma interessante estrutura inerente no texto jornalístico

assim como realçar os tópicos e sujeitos mais discutidos nos artigos. Esta geração podia ser esten-

dida ainda aos comentários, que representam uma outra importante fonte sobre o uso da linguagem

por parte dos leitores do jornal. A anotação das entidades mencionadas no texto, assim como a

sua resolução e categorização (local, pessoa, organização, etc.) seria uma importante anotação a

acrescentar ao arquivo, possibilitando o estudo das relações entre as entidades assim como análi-

ses à localidade dos artigos, ao género das entidades e quanto à partilha de entidades nas diversas

categorias. Outro passo relevante futuramente era a organização e disponibilização do corpus à co-

munidade científica, permitindo futuro desenvolvimento e investigação sobre a natureza do texto

jornalístico.

59

Page 76: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Conclusões e Trabalho Futuro

60

Page 77: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

Referências

[Bak06] Paul Baker. Using corpora in discourse analysis. AC Black, 2006.

[Bat14] David Batista. Big corpus pt01 in english, 2014. URL: http://dmir.inesc-id.pt/project/BIG_Corpus_PT01_in_English.

[BBF+06] Florbela Barreto, António Branco, Eduardo Ferreira, Amália Mendes, Maria Fer-nanda Nascimento, Filipe Nunes e Joao Silva. Open resources and tools for theshallow processing of portuguese: the tagshare project. In Proceedings of LREC2006. Citeseer, 2006.

[BDM+92] Peter F Brown, Peter V Desouza, Robert L Mercer, Vincent J Della Pietra e Jenifer CLai. Class-based n-gram models of natural language. Computational linguistics,18(4):467–479, 1992.

[Bic00] Eckhard Bick. The parsing system"Palavras": Automatic grammatical analysis ofPortuguese in a constraint grammar framework. Aarhus Universitetsforlag, 2000.

[Bir06] Steven Bird. Nltk: the natural language toolkit. In Proceedings of the COLING/ACLon Interactive presentation sessions, pages 69–72. Association for ComputationalLinguistics, 2006.

[BS04] António Branco e Joao Silva. Evaluating solutions for the rapid development ofstate-of-the-art pos taggers for portuguese. In LREC, 2004.

[BS06] António Branco e Joao Ricardo Silva. A suite of shallow processing tools for portu-guese: Lx-suite. In Proceedings of the Eleventh Conference of the European Chapterof the Association for Computational Linguistics: Posters & Demonstrations, pages179–182. Association for Computational Linguistics, 2006.

[Bur95] Lou Burnard. Users reference guide british national corpus version 1.0. 1995.

[Bur06] Lou Burnard. Xaira: software for language analysis. In Digital Historical Corpora,2006.

[Car08] Nuno Cardoso. Rembrandt-reconhecimento de entidades mencionadas baseado emrelaçoes e análise detalhada do texto. Encontro do Segundo HAREM, PROPOR,2008, 2008.

[Cos06] Luís Costa. 20th Century Esfinge (Sphinx) solving the riddles at CLEF 2005. Sprin-ger, 2006.

[Cri13] Nisco Maria Cristina. Reporting the 2011 london riots: a corpus-based discourseanalysis of agency and participants. Corpus Linguistics 2013, page 2, 2013.

61

Page 78: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

REFERÊNCIAS

[dA10] Aroldo Leal de Andrade. The application of clitic climbing in european portugueseand the role of register. In Selected Proceedings of the 12th Hispanic LinguisticsSymposium, pages 97–108, 2010.

[Dav07] Mark Davies. Time magazine corpus (100 million words, 1920s-2000s). RetrievedSeptember, 1:2008, 2007.

[Dav08] Mark Davies. The corpus of contemporary american english: 425 million words,1990-present. 2008.

[Dav09] Mark Davies. Creating useful historical corpora: A comparison of corde, the corpusdel español, and the corpus do português. Diacronía de las lenguas iberorrománicas:Nuevas aportaciones desde la linguística de corpus, pages 137–166, 2009.

[Deu03] Mats Deutschmann. Apologising in british english. 2003.

[dTE] Corpus de Extractos de Textos Electrônicos. Nilc/folha de sao paulo (ceten-folha).

[Eva01] Richard Evans. Applying machine learning toward an automatic classification of it.Literary and linguistic computing, 16(1):45–57, 2001.

[FK79] W Nelson Francis e Henry Kucera. Brown corpus manual. 1979.

[FRB08] Claudia Freitas, Paulo Rocha e Eckhard Bick. Um mundo novo na floresta sintá (c)tica–o treebank do português. Calidoscópio, 6(3):142–148, 2008.

[FSM+09] Cláudia Freitas, Diana Santos, Cristina Mota, Hugo Gonçalo Oliveira e Paula Carva-lho. Relation detection between named entities: report of a shared task. In Proce-edings of the Workshop on Semantic Evaluations: Recent Achievements and FutureDirections, pages 129–137. Association for Computational Linguistics, 2009.

[Gar87] Roger Garside. The claws word-tagging system. 1987.

[GB] Ian Gregory e Alistair Baron. Geographical text analysis mapping and spatiallyanalysing corpora. Corpus Linguistics 2013, page 104.

[GHM12] Michel Généreux, Iris Hendrickx e Amália Mendes. Introducing the reference corpusof contemporary portuguese online. Politics, 45:163–267, 2012.

[GLM97] Roger Garside, Geoffrey N Leech e Tony McEnery. Corpus annotation: linguisticinformation from computer text corpora. Taylor Francis, 1997.

[Gra95] David Graff. North american news text corpus, 1995.

[Her60] Gustav Herdan. Type-token mathematics, volume 4. Mouton, 1960.

[IV95] Nancy Ide e Jean Véronis. Text encoding initiative: Background and contexts, vo-lume 29. Springer Science Business Media, 1995.

[JAR03] A. Simões . J. Almeida e P. Rocha. Lingua-pt-pln, 2003.

[Joa98] Thorsten Joachims. Text categorization with support vector machines: Learning withmany relevant features. Springer, 1998.

[Lee93] Geoffrey Leech. Corpus annotation schemes. Literary and linguistic computing,8(4):275–281, 1993.

62

Page 79: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

REFERÊNCIAS

[Lee04] Geoffrey Leech. Developing linguistic corpora: a guide to good practice addinglinguistic annotation, 2004.

[Lew97] David D Lewis. Reuters-21578 text categorization test collection, distribution 1.0.http://www. research. att. com/˜ lewis/reuters21578. html, 1997.

[Ley07] Loet Leydesdorff. Betweenness centrality as an indicator of the interdisciplinarityof scientific journals. Journal of the American Society for Information Science andTechnology, 58(9):1303–1319, 2007.

[LHL+03] Elizabeth D Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, LucyVanderwende e Ralph Weischedel. Natural language processing. Encyclopedia oflibrary and information science, 2, 2003.

[Mal00] Robert Malouf. The order of prenominal adjectives in natural language generation.In Proceedings of the 38th Annual Meeting on Association for Computational Lin-guistics, pages 85–92. Association for Computational Linguistics, 2000.

[MCJ06] David McClosky, Eugene Charniak e Mark Johnson. Effective self-training for par-sing. In Proceedings of the main conference on human language technology confe-rence of the North American Chapter of the Association of Computational Linguis-tics, pages 152–159. Association for Computational Linguistics, 2006.

[Mil09] Neil Millar. Modal verbs in time: Frequency changes 1923–2006. InternationalJournal of Corpus Linguistics, 14(2):191–220, 2009.

[MRS08] Christopher D Manning, Prabhakar Raghavan e Hinrich Schütze. Introduction toinformation retrieval, volume 1. Cambridge university press Cambridge, 2008.

[MS04a] Bruno Martins e Mário J Silva. A statistical study of the wpt-03 corpus. In Advancesin Natural Language Processing, pages 384–394. Springer, 2004.

[MS04b] Bruno Martins e Mário J Silva. Spelling correction for search engine queries, pages372–383. Springer, 2004.

[MSB+14] Christopher D Manning, Mihai Surdeanu, John Bauer, Jenny Finkel, Steven JBethard e David McClosky. The stanford corenlp natural language processing to-olkit. In Proceedings of 52nd Annual Meeting of the Association for ComputationalLinguistics: System Demonstrations, pages 55–60, 2014.

[MTU+01] Diana Maynard, Valentin Tablan, Cristian Ursu, Hamish Cunningham e YorickWilks. Named entity recognition from diverse text types. In Recent Advances inNatural Language Processing 2001 Conference, pages 257–274, 2001.

[MXT06] Tony McEnery, Richard Xiao e Yukio Tono. Corpus-based language studies. Rou-tledge London, 2006.

[Mä13] Christina Märzhäuser. Coordinated bare nouns in french, spanish and european por-tuguese. New perspectives on bare noun phrases in romance and beyond, pages283–300, 2013.

[NAdL+12] Paula Nascimento, Rodrigo Aguas, Débora de Lima, Xiao Kong, Bruno Osiek, Ge-raldo Xexéo e Jano de Souza. Análise de sentimento de tweets com foco em notícias.Proceedings of the CSBC, 2012.

63

Page 80: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

REFERÊNCIAS

[NGM+96] MGV Nunes, CM Ghiraldelo, G Montilha, MAS Turine, MCF De Oliveira, R Ha-segawa, RT Martins e ON Oliveira Jr. Desenvolvimento de um sistema de revisãogramatical automática para o português do brasil. II Encontro para o ProcessamentoComputacional do Português Escrito e Falado, 1996.

[NMTM00] Kamal Nigam, Andrew Kachites McCallum, Sebastian Thrun e Tom Mitchell. Textclassification from labeled and unlabeled documents using em. Machine learning,39(2-3):103–134, 2000.

[NWM06] R Nielsen, Wayne Ward e James H Martin. Toward dependency path based entail-ment. In Proceedings of the Second PASCAL Challenges Workshop on RecognisingTextual Entailment, pages 44–49, 2006.

[OS98] Signe Oksefjell e Diana Santos. Breve panorâmica dos recursos de português men-cionados na web. III Encontro para o Processamento Computacional do PortuguêsEscrito e Falado (PROPOR’98)(Porto Alegre, RS, 3 e 4 novembro de 1998), pages38–47, 1998.

[OSG09] Hugo Gonçalo Oliveira, Diana Santos e Paulo Gomes. Relations extracted from aportuguese dictionary: results and first evaluation. In Local Proc. 14th PortugueseConf. on Artificial Intelligence (EPIA), pages 541–552, 2009.

[QMHG14] Paulo Quaresma, Amália Mendes, Iris Hendrickx e Teresa Gonçalves. Automatictagging of modality: identifying triggers and modal values. In Proceedings 10thJoint ISO-ACL SIGSEM Workshop on Interoperable Semantic Annotation, page 95,2014.

[RBZ14] Isabela Reis, Helder Bastos e Fernando Zamith. Obciber - cetac.media, 2014. URL:https://obciber.wordpress.com/.

[Rei15a] Isabela Reis. Estatuto editorial - jpn - jornalismoportonet, 2015. URL: http://jpn.up.pt/documentos/estatuto-editorial-do-jpn/.

[Rei15b] Isabela Reis. Jpn - jornalismoportonet - jornal digital da licenciatura em ciências dacomunicação: Jornalismo, da universidade do porto., 2015. URL: http://jpn.up.pt/.

[RS00] Paulo Rocha e Diana Santos. Cetempúblico: Um corpus de grandes dimensões delinguagem jornalística portuguesa. Actas do V Encontro para o processamento com-putacional da língua portuguesa escrita e falada, PROPOR, 2000:131–140, 2000.

[RSW02] Tony Rose, Mark Stevenson e Miles Whitehead. The reuters corpus volume 1-fromyesterday’s news to tomorrow’s language resources. In LREC, volume 2, pages 827–832, 2002.

[RUH+14] Michael Röder, Ricardo Usbeck, Sebastian Hellmann, Daniel Gerber e AndreasBoth. N3-a collection of datasets for named entity recognition and disambiguationin the nlp interchange format. 9th LREC, 2014.

[San11] Diana Santos. Linguateca’s infrastructure for portuguese and how it allows the de-tailed study of language varieties. Oslo Studies in Language, 3(2), 2011.

[SB00] Diana Santos e Eckhard Bick. Providing internet access to portuguese corpora: theac/dc project. In LREC. Citeseer, 2000.

64

Page 81: Caracterização de um corpus jornalístico português · políticos: o texto jornalístico do JPN apresenta mais nomes próprios e menos adjetivos e advér-bios. Em termos lexicais

REFERÊNCIAS

[Sco96] Mike Scott. Wordsmith tools, 1996.

[SFK00] Efstathios Stamatatos, Nikos Fakotakis e George Kokkinakis. Text genre detectionusing common word frequencies. In Proceedings of the 18th conference on Com-putational linguistics-Volume 2, pages 808–814. Association for Computational Lin-guistics, 2000.

[SG00] Mark Stevenson e Robert Gaizauskas. Experiments on sentence boundary detec-tion. In Proceedings of the sixth conference on Applied natural language processing,pages 84–89. Association for Computational Linguistics, 2000.

[Sin91] John Sinclair. Corpus, concordance, collocation. Oxford University Press, 1991.

[SS02] Diana Santos e Luís Sarmento. O projecto ac/dc: acesso a corpora/disponibilizaçãode corpora. Actas do XVIII Encontro da Associação Portuguesa de Linguística, pages705–717, 2002.

[SSN02] Satoshi Sekine, Kiyoshi Sudo e Chikashi Nobata. Extended named entity hierarchy.In LREC, 2002.

[SV00] Anne-Marie Simon-Vandenbergen. The functions of i think in political discourse.International Journal of Applied Linguistics, 10(1):41–63, 2000.

[Sva90] Jan Svartvik. The London-Lund corpus of spoken English: Description and research.Number 82. Lund University Press, 1990.

[SW01] Mark Stevenson e Yorick Wilks. The interaction of knowledge sources in word sensedisambiguation. Computational Linguistics, 27(3):321–349, 2001.

[U/P15] SAPO U/Porto. Maquina do tempo, 2015. URL: http://maquinadotempo.sapo.pt/.

[Vic13] Alexandre Manuel Fajardo Vicente. LexMan: um Segmentador e Analisador Morfo-lógico com transdutores. Thesis, 2013.

[WA07] George RS Weir e Nikolaos K Anagnostou. Exploring newspapers: a case study incorpus analysis. Proceedings of ICTATLL 2007, pages 12–19, 2007.

[Wer00] Stefan Wermter. Neural network agents for learning semantic text classification.Information Retrieval, 3(2):87–103, 2000.

[Wu04] Xiaobing Wu. Knowledge representation and inductive learning with xml. In Pro-ceedings of the 2004 IEEE/WIC/ACM International Conference on Web Intelligence,pages 491–494. IEEE Computer Society, 2004.

[ZLHZ10] Zhicheng Zheng, Fangtao Li, Minlie Huang e Xiaoyan Zhu. Learning to link en-tities with knowledge base. In Human Language Technologies: The 2010 AnnualConference of the North American Chapter of the Association for ComputationalLinguistics, pages 483–491. Association for Computational Linguistics, 2010.

65