organização e gerenciamento de conteúdos jornalísticos na web semântica

173
 UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE CIÊNCIAS SOCIAIS E HUMANAS PROGRAMA DE PÓS-GRADUAÇÃO EM COMUNICAÇÃO  ORGANIZAÇÃO E GERENCIAMENTO DE CONTEÚDOS JORNALÍSTICOS NA WEB SEMÂNTICA DISSERTAÇÃO DE MESTRADO Iuri Lammel Santa Maria, RS, Brasil 2011 

Upload: iuri-lammel

Post on 22-Jul-2015

157 views

Category:

Documents


0 download

DESCRIPTION

Dissertação de mestrado em Comunicação de Iuri Lammel.Propgrama de Pós-Graduação em Comunicação da Universidade Federal de Santa Maria.2010-2011

TRANSCRIPT

UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE CINCIAS SOCIAIS E HUMANAS PROGRAMA DE PS-GRADUAO EM COMUNICAO

ORGANIZAO E GERENCIAMENTO DE CONTEDOS JORNALSTICOS NA WEB SEMNTICA

DISSERTAO DE MESTRADO

Iuri Lammel

Santa Maria, RS, Brasil 2011

ORGANIZAO E GERENCIAMENTO DE CONTEDOS JORNALSTICOS NA WEB SEMNTICA

Iuri Lammel

Dissertao apresentada ao Curso de Mestrado do Programa de Ps-Graduao em Comunicao, rea de concentrao em Comunicao Miditica, da Universidade Federal de Santa Maria (UFSM, RS), como requisito parcial para obteno do grau de Mestre em Comunicao Miditica

Orientadora: Profa. Dr. Luciana Mielniczuk

Santa Maria, RS, Brasil 2011

Universidade Federal de Santa Maria Centro de Cincias Sociais e Humanas Programa de Ps-Graduao em Comunicao

A Comisso Examinadora, abaixo assinada, aprova a proposta de qualificao da dissertao de Mestrado

ORGANIZAO E GERENCIAMENTO DE CONTEDOS JORNALSTICOS NA WEB SEMNTICA elaborada por Iuri Lammel

Como requisito parcial para obteno do grau de Mestre em Comunicao

COMISSO EXAMINADORA: __________________________________Dr. Luciana Mielniczuk (UFSM) (Presidente / Orientadora)

__________________________________Dr. Suzana Barbosa (UFBA)

__________________________________Dr. Giovani Rubert Librelotto (UFSM)

Santa Maria, dezembro de 2011.

AGRADECIMENTOSAgradeo, em primeiro lugar, aos meus pais, que alm de me apoiarem com carinho, sustentaram meus estudos at o final da graduao. Aos meus colegas de mestrado, que sempre apoiaram uns aos outros em momentos de dvidas de e aflio e que nunca deixaram o nimo cair nestes dois anos de pesquisa. Universidade Federal de Santa Maria (UFSM), instituio pblica de ensino superior que me formou gratuitamente e com qualidade em diversos nveis de educao: desde o curso tcnico at a ps-graduao. A dois grupos de pesquisa em jornalismo: o Grupo Jornalismo Digital (JORDI), da UFSM, em que participei desde o perodo de graduao e que me auxiliou no enriquecimento acadmico e intelectual; e o Grupo de Pesquisa em Jornalismo On-line (GJOL), da UFBA, que, embora eu nunca tenha participado, foi fundamental na minha formao como pesquisador em jornalismo digital, devido a sua rica produo cientfica na rea. Ao Centro Universitrio Franciscano (UNIFRA), que me acolheu como profissional, acreditou e apostou em meu potencial como professor e h mais e trs anos me proporciona uma realizao profissional ao me oportunizar o exerccio da docncia com plena liberdade e confiana. A minha professora orientadora, Luciana Mielniczuk, que no apenas orientou minha dissertao, como tambm foi a principal responsvel por me direcionar ao caminho da pesquisa em jornalismo digital. Alm, claro, de me proporcionar uma grande amizade. Obrigado pelas orientaes que recebo desde 2004 e pela compreenso (e pacincia!) em relao s minhas limitaes neste processo de gerar uma dissertao. Aos visionrios que contriburam, cada um com sua valiosa parte, para o desenvolvimento do hipertexto, da internet e da web: Vannevar Bush, Ted Nelson, Douglas Engelbart, Bob Kahn, Vinton Cerf, Robert Cailliau e Tim Berners-Lee, entre outros que so, para mim, modelos que adoto como exemplo profissional, acadmico e cientfico. Por fim, em especial, agradeo a minha companheira, Laura Cortes, que suportou perodos de ausncias e desnimos de um estudante de mestrado que tambm enfrenta uma rotina de trabalho dirio. Agradeo pela compreenso, pelo apoio e pelo amor demonstrados nestes anos.

RESUMO Dissertao de Mestrado Programa de Ps-Graduao em Comunicao Universidade Federal de Santa Maria ORGANIZAO E GERENCIAMENTO DE CONTEDOS JORNALSTICOS NA WEB SEMNTICA Autor: Iuri Lammel Orientadora: Luciana Mielniczuk

Entre as tecnologias que transformaram o jornalismo digital desde o seu surgimento, destacam-se duas: a World Wide Web (web), rede de documentos digitais que serviu como plataforma prtica jornalstica na internet e determinou as trs fases evolutivas do jornalismo digital; e as bases de dados, que, agregadas web, se tornaram a principal tecnologia estruturante dos produtos jornalsticos na fase de transio entre a terceira e a quarta gerao do jornalismo digital. No ano de 2001, o cientista Tim Berners-Lee, inventor da web, publicou um artigo com a proposta de uma expanso para esta rede, a qual foi denominada Web Semntica. O artigo propunha uma mudana no conceito da web: da tradicional rede de documentos para uma rede de dados, com capacidade para representar conceitos reais, como pessoas, lugares e objetos. Um grande diferencial desta proposta que os computadores teriam capacidade para interpretar tais dados e identificar seus significados. Em uma rede semntica, as informaes poderiam ser organizadas e gerenciadas de forma mais eficiente e automatizada, e as conexes entre dados seriam mais ricas do que atravs dos atuais links entre documentos. O conceito de Web Semntica ainda est em fase de amadurecimento, mas j possvel encontrar em funcionamento produtos digitais que aplicam tal conceito. A proposta desta pesquisa analisar dois casos que aplicam o conceito da Web Semntica no jornalismo digital, mais especificamente na organizao e no gerenciamento das informaes jornalsticas. Para o embasamento terico da investigao, foi realizada uma reviso bibliogrfica sobre o jornalismo digital, sobre o paradigma do Jornalismo Digital em Base de Dados (JDBD) e sobre o funcionamento das tecnologias empregadas na Web Semntica, tais como o RDF e as ontologias. A pesquisa apresenta carter exploratrio e emprega como estratgia de investigao o estudo de caso, especificamente dos sites BBC World Cup 2010 e BBC Wildlife. A anlise foi realizada a partir de oito categorias aplicveis ao estudo do JDBD. Entre os resultados, constatado que a Web Semntica potencializa algumas das caractersticas do JDBD, principalmente devido automatizao. Alm disso, foi identificado nos casos estudados que a interoperabilidade automatizada foi o benefcio mais vantajoso da Web Semntica em relao s tecnologias at ento utilizadas no jornalismo digital, e que pode se tornar uma ruptura caso o projeto de Web Semntica obtenha xito.

Palavras-chave: Web Semntica, jornalismo digital, Jornalismo Digital em Base de Dados, BBC.

ABSTRACT Dissertao de Mestrado Programa de Ps-Graduao em Comunicao Universidade Federal de Santa Maria ORGANIZATION AND MANAGEMENT OF JOURNALISTIC CONTENT ON THE SEMANTIC WEB Author: Iuri Lammel Adviser: Luciana Mielniczuk

Among the technologies that have modified the digital journalism since its inception, there are two that can be highlighted: 1) the World Wide Web (Web), a network of digital documents that has being used as a platform to the practice of journalism on the Internet and that determined the three generations of digital journalism; and 2) the databases aggregate to the Web, that have become the main technology behind the structuring of journalistic products in the transition between the third and fourth generation of digital journalism. In 2001, the scientist Tim Berners-Lee, inventor of the web, published a paper with a proposal of an extension to this network, which was called the Semantic Web. The paper proposed a change in the concept of the current web: from the traditional network made of documents to a network made of data, plus the technical ability to represent real concepts, such as people, places and objects. A great advantage of this proposal is that computers would be able to understand the data and identify their meanings. With a semantic network, the information could be organized and managed more efficiently and in an automated way, and the connections between the data would be richer than the current hyperlinks between documents. The concept of the Semantic Web is still maturing, but it is currently possible to find digital products that implement this concept. This research aims to analyze two real cases that apply the concept of the Semantic Web in digital journalism, specifically in the organization and management of the newspaper reports. For the theoretical background of research, we conducted a literature review on digital journalism, paradigm of the Digital Journalism on Databases (JDBD) and how the standard technologies of the Semantic Web work, such as RDF and ontologies. This is an exploratory research and it uses the case study as a method. The cases are the site 'World Cup 2010 BBC' and the site 'BBC Wildlife'. The analysis was performed using eight categories applicable to the study of JDBD. Among the results, it is found that the Semantic Web improve some of the characteristics of JDBD, mainly due to the automation on management tasks. Moreover, it identified that automated interoperability was the more advantageous benefit of Semantic Web to both digital journalism cases, and that it can become a potential rupture if the Semantic Web project come to succeed.

Key-words: Semantic Web, on-line journalism, Digital Journalism on Databases, data journalism, BBC.

LISTA DE FIGURASFigura 1 Vdeo do YouTube com insero dinmica de comentrio sobreposto ao vdeo ... 29 Figura 2 Vdeo do YouTube com insero dinmica de links sobrepostos ao vdeo ............ 30 Figura 3 Pgina de vdeo do YouTube com insero dinmica de dados ............................. 31 Figura 4 Tela do site OurSignal, que rene publicaes de diversos sites e os apresenta em retngulos ................................................................................................................................. 40 Figura 5 Infografia em base de dados do Los Angeles Times sobre a ocorrncia dos homicdios (RODRIGUES, 2009, p. 44) ................................................................................ 45 Figura 6 Estrutura da tripla .................................................................................................... 61 Figura 7 Exemplo de tripla .................................................................................................... 61 Figura 8 Exemplo de um grafo que une duas triplas ............................................................. 61 Figura 9 Exemplo de grafo mais complexo. Adaptada de Segaran (et al, 2009, p. 30) ........ 62 Figura 10 Exemplo de tripla com sujeito, predicado e objeto identificados atravs do uso de URI ........................................................................................................................................... 64 Figura 11 Lista de colees de dados em RDF disponveis para download no site Data.gov .................................................................................................................................................. 66 Figura 12 Visualizao parcial de uma das colees de dados em RDF/XML disponveis para download no site Data.gov ............................................................................................... 67 Figura 13 Pgina inicial do site This We Know, em que so apresentadas listas com rankings entre cidades norte-americanas .................................................................................. 68 Figura 14 Pgina do site This We Know, que apresenta nmeros sobre uma cidade dos EUA, como o nmero de fbricas (A), de crimes violentos (B) e de empregados x desempregados (C) ................................................................................................................... 69 Figura 15 Tela do software Protg que mostra parte de uma ontologia em OWL (CANTAIS et al., 2005) ........................................................................................................... 75 Figura 16 Processo de extrao de conceitos no servio Calais ............................................ 79 Figura 17 Tela que mostra parte dos dados estruturados relativos ao termo So Paulo no site do projeto DBpedia ............................................................................................................ 82 Figura 18 Diagrama do Linked Data, atualizado em maio de 2007 ...................................... 83 Figura 19 Diagrama do Linked Data, atualizado em 19 de setembro de 2011...................... 84 Figura 20 Diagrama com fluxo de pesquisas na nuvem de dados para aplicativo fictcio (SEGARAN et al., 2009, p. 112) com marcaes que indicam a ordem das pesquisas (marcao nossa) ...................................................................................................................... 85

Figura 21 Pgina dos times (Seleo brasileira), dividida em duas partes ............................ 92 Figura 22 Pgina dos jogadores (jogador Robinho), dividida em duas partes ...................... 93 Figura 23 Pgina dos grupos (grupo G), dividida em duas partes......................................... 94 Figura 24 Pgina das partidas, com o relato (A) e as informaes (B) sobre o jogo ............ 95 Figura 25 Pgina da partida, com comentrios (A) e estatsticas (B) sobre o jogo ............... 96 Figura 26 Viso parcial da pgina de notcia, com marcaes em trs listas de links .......... 97 Figura 27 esquerda, uma viso parcial da pgina inicial do site World Cup 2010. direita, a mesma pgina, porm completa e com marcaes que indicam as reas relatadas .. 98 Figura 28 Pgina Groups and teams. Na parte superior: os oito grupos da Copa. Na parte inferior: o mapa de confrontos ps-fase de grupos................................................................... 99 Figura 29 Pgina Fixtures and results ................................................................................. 100 Figura 30 Menu superior do site World Cup 2010 .............................................................. 101 Figura 31 Menu inferior do site World Cup 2010 ............................................................... 101 Figura 32 Viso simplificada do processo de publicao semntica da BBC (OLIVER, 2010b, traduo nossa) ........................................................................................................... 105 Figura 33 Processo de publicao dinmica e semntica da BBC (ODONAVAN, 2010, traduo nossa, marcao nossa) ............................................................................................ 106 Figura 34 Dados sobre jogador convertidos para o formato de grficos em barra .............. 111 Figura 35 Pgina inicial do BBC Wildlife........................................................................... 113 Figura 36 Menu na pgina inicial do site Wildlife. Marcaes nossas ............................... 114 Figura 37 Viso parcial da pgina das espcies .................................................................. 116 Figura 38 Pgina das espcies, com marcaes indicativas ................................................ 117 Figura 39 Comparao entre as pginas de espcie (leo), classe (mamferos) e filo (vertebrados) ........................................................................................................................... 120 Figura 40 Pgina de comportamento/adaptao (esquerda) e da pgina de habitat (direita) ................................................................................................................................................ 122 Figura 41 Caixa de links para notcias relacionadas ao conceito de "leo" ........................ 123 Figura 42 Pgina de notcia no site BBC Earth News ......................................................... 125 Figura 43 Menu principal do site BBC Nature, com links para as sees do site ............... 126 Figura 44 Reproduo parcial de artigo em blog do site BBC Nature. Marcaes nossas . 128 Figura 45 esquerda, a pgina da espcie Tarntula. direita, a pgina serializada em RDF/XML .............................................................................................................................. 132 Figura 46 Triplas RDF que descrevem um vdeo do site BBC Programmes ...................... 133 Figura 47 Triplas RDF que descrevem um vdeo do site BBC Programmes ...................... 133

Figura 48 Grafo das triplas que descrevem um vdeo do site BBC Programmes ............... 134 Figura 49 Clipe de vdeo do BBC Programmes agregado pgina do Wildlife ................. 135 Figura 50 Camadas que fazem o fluxo de publicao dinmica e semntica do BBC Wildlife (OLIVER, 2010b, traduo nossa) ......................................................................................... 137

LISTA DE APNDICESAPNDICE A Roteiro para observao e anlise dos casos estudados .............................. 159 APNDICE B Lista de fonte para anlise do site BBC World Cup 2010 .......................... 160 APNDICE C Lista de fonte para anlise do site BBC Wildlife ........................................ 161

LISTA DE ANEXOSANEXO A Tela da pgina do Google News ....................................................................... 162 ANEXO B Tela inicial da seo Home do site BBC Nature............................................... 163 ANEXO C Tela inicial da seo News do site BBC Nature ............................................... 164 ANEXO D Tela inicial da seo Features do site BBC Nature........................................... 165 ANEXO E Tela inicial da seo Blog do site BBC Nature ................................................. 166 ANEXO F Tela inicial da seo Video Collections do site BBC Nature ............................ 167 ANEXO G Tela inicial da seo Wildlife do site BBC Nature ........................................... 168 ANEXO H Tela inicial da seo Prehistoric Life do site BBC Nature ............................... 169 ANEXO I Tela inicial da seo Places do site BBC Nature ............................................... 170 ANEXO J Resultado de busca no Google pelo termo "lion" .............................................. 171 ANEXO K Resultado de busca no Google pelos termos "world cup 2010" ....................... 172

SUMRIO INTRODUO ................................................................................................. 13 1 JORNALISMO DE DADOS ................................................................... 21

1.1 Fases e caractersticas do Jornalismo Digital............................................................ 21 1.2 Jornalismo Digital em Base de Dados (JDBD).......................................................... 24 1.2.1 Bases de dados ........................................................................................................... 25 1.2.2 Bases de dados como forma cultural ......................................................................... 27 1.2.3 Bases de dados no jornalismo .................................................................................... 33 1.2.4 JDBD: paradigma para a quarta gerao do jornalismo digital ................................. 36 1.3 Jornalismo de dados .................................................................................................... 41 1.3.1 Conceito de data journalism ...................................................................................... 41 1.3.2 Visualizao de dados ................................................................................................ 43 1.3.3 Aplicativos jornalsticos ............................................................................................ 46

2

WEB SEMNTICA................................................................................. 51

2.1 A web atual: uma rede de documentos ...................................................................... 51 2.2 Web Semntica: uma rede de dados .......................................................................... 54 2.2.1 Metadados .................................................................................................................. 58 2.2.2 Um modelo padronizado para os metadados: o padro RDF .................................... 59 2.2.3 Ontologias .................................................................................................................. 70 2.2.4 Uma linguagem para construo de ontologias: o padro OWL ............................... 73 2.2.5 As mquinas tomam a iniciativa: os agentes inteligentes .......................................... 76 2.2.6 Extrao de conceitos em contedos no estruturados .............................................. 77 2.2.6.1 Tcnica de tagging ................................................................................................. 77 2.2.6.2 Software de anlise automtica .............................................................................. 78 2.3 Linked Data .................................................................................................................. 80

3

A WEB SEMNTICA NO JORNALISMO DIGITAL ....................... 87

3.1 Seleo do corpus da pesquisa .................................................................................... 87 3.2 Caso BBC World Cup 2010 ........................................................................................ 89 3.2.1 Descrio do produto ................................................................................................. 90 3.2.2 Contexto e justificativa para uso das tecnologias semnticas.................................. 101 3.2.3 Identificao de recursos e tecnologias semnticas utilizadas ................................. 103 3.2.4 Descrio do funcionamento das tecnologias semnticas ....................................... 103 3.2.5 Contribuies das tecnologias semnticas ao atual paradigma do JDBD................ 107 3.2.5.1 Dinamicidade ....................................................................................................... 108 3.2.5.2 Automatizao...................................................................................................... 108 3.2.5.3 Flexibilidade ......................................................................................................... 109 3.2.5.4 Inter-relacionamento/Hiperlinkagem ................................................................... 109 3.2.5.5 Densidade informativa ......................................................................................... 110 3.2.5.6 Diversidade temtica ............................................................................................ 110 3.2.5.7 Visualizao ......................................................................................................... 110 3.2.5.8 Convergncia........................................................................................................ 111 3.3 Caso BBC Wildlife ..................................................................................................... 112 3.3.1 Descrio do produto ............................................................................................... 112 3.3.2 Contexto e justificativa para uso das tecnologias semnticas.................................. 129 3.3.3 Identificao de recursos e tecnologias semnticas utilizadas ................................. 130

3.3.4 Descrio do funcionamento das tecnologias semnticas ....................................... 130 3.3.5 Contribuies das tecnologias semnticas ao atual paradigma do JDBD................ 139 3.3.5.1 Dinamicidade ....................................................................................................... 139 3.3.5.2 Automatizao...................................................................................................... 139 3.3.5.3 Flexibilidade ......................................................................................................... 140 3.3.5.4 Inter-relacionamento/Hiperlinkagem ................................................................... 140 3.3.5.5 Densidade informativa ......................................................................................... 141 3.3.5.6 Diversidade temtica ............................................................................................ 141 3.3.5.7 Visualizao ......................................................................................................... 141 3.3.5.8 Convergncia........................................................................................................ 142 3.4 Avaliao geral sobre o uso das tecnologias semnticas no jornalismo digital.... 142

CONSIDERAES FINAIS ......................................................................... 145 REFERNCIAS BIBLIOGRFICAS .......................................................... 149

13

INTRODUO

A presente pesquisa se caracteriza como um estudo interdisciplinar que envolve conhecimentos dos campos do jornalismo e da cincia da computao. Em diversos momentos deste trabalho, as fronteiras entre os conhecimentos especficos de cada rea se entrelaam. Afinal, o jornalismo, tomado aqui como uma atividade que trabalha essencialmente com dados e informaes, no teria como escapar dos efeitos transformadores das tecnologias digitais. No queremos defender o pensamento reducionista (e tentador) de que novas tecnologias tendem a melhorar a prtica jornalstica, pois, como afirma o pesquisador Marcos Palacios (2003, p. 16), corremos o perigo de instaurar um pensamento guiado por uma lgica evolucionista de carter simplista. Por outro lado, ao considerarmos que a

contemporaneidade marcada, entre outros fenmenos, pelo surgimento de um ciberespao que redefine prticas sociais e profissionais (LEMOS; LVY, 2010), sabemos que as mudanas tecnolgicas tm potencial para transformaes nos modos de produzir e consumir a informao jornalstica. Se o jornalismo digital uma atividade baseada em plataformas tecnolgicas que passam por constantes mutaes, ento a produo jornalstica praticada neste ambiente tambm passa por redefinies (PAVLIK, 2000). No decorrer das dcadas de 1990 e 2000, o rpido desenvolvimento e popularizao dos computadores e das redes fizeram emergir diferentes plataformas digitais para a distribuio da informao, tais como o disco tico, o correio eletrnico, a web e os software aplicativos em dispositivos mveis. Destes, podemos afirmar que a World Wide Web (WWW ou simplesmente web) foi uma das tecnologias que mais influenciaram os estudos brasileiros sobre o jornalismo digital das duas ltimas dcadas, devido a uma diversidade de fatores, tais como o seu alcance global, a sua facilidade na produo e distribuio de contedos e a sua lgica de interconexo de documentos (LEO, 1999). Foi principalmente a partir das potencialidades tcnicas da web que surgiram estudos sobre as caractersticas que diferenciam o jornalismo digital das outras modalidades de jornalismo (PALACIOS, 2003), que delimitou os estudos sobre o desenvolvimento do jornalismo digital em diferentes geraes (MIELNICZUK, 2003), e que abriu espao para os estudos sobre a produo jornalstica em sistemas automatizados (SCHWINGEL, 2004) e sobre o jornalismo digital estruturado em bases de dados (MACHADO, 2006; BARBOSA, 2007, 2008a). Por isso, consideramos que uma mudana na forma como a web funciona apresenta potencial para

14 influenciar nos modos de produo, circulao e consumo da informao (jornalstica ou no) no ciberespao. E, de fato, uma proposta de mudana na web est em curso. No ano de 2011, a web completou 20 anos desde seu lanamento pblico e, no decorrer deste perodo, apresentou atualizaes em especificaes tcnicas importantes (como as atualizaes do HTML publicadas pela W3C1), alm de ter sido enriquecida com o surgimento de tecnologias paralelas, como plug-ins para multimdia e linguagens de script. Porm, na essncia, a organizao da web continuou funcionando com base no mesmo conceito de sua origem: como uma rede de documentos conectados. No incio da dcada de 2000, o cientista britnico Tim Berners-Lee, idealizador da prpria World Wide Web, apresentou um artigo em que propunha um conceito mais avanado para esta rede. A esta proposta, ele denominou Web Semntica: uma rede que funcionaria no apenas como um sistema de associaes de documentos criados prioritariamente para a leitura humana, mas como uma rede de dados, em que os computadores tambm seriam capazes de identificar os significados dos contedos publicados nas pginas (BERNERS-LEE et al., 2002). Em outras palavras, na Web Semntica as informaes publicadas na rede so preparadas para serem compreendidas tanto por humanos quanto por mquinas, o que resultaria em uma web mais eficiente e autnoma na busca e na associao de informaes. Para Berners-Lee et al. (2002), passaramos do paradigma de web de documentos para a de web de dados, estruturados e adaptados para a interpretao das mquinas. As vantagens de um sistema semntico global alcanariam diversas reas que trabalham com a organizao e o compartilhamento de dados, alm da automao em operaes que envolvem o gerenciamento dos mesmos, tais como na cincia da computao (BERNERS-LEE et al, 2002; SHADBOLT et al, 2006; KASHYAP et al, 2008; SEGARAN et al, 2009), na cincia da informao (CODINA, 2011; SOUZA E ALVARENGA, 2004) e tambm no jornalismo (BERTOCCHI, 2010), devido natureza informativa dessa prtica profissional. Tal cenrio abre caminho para o desenvolvimento de produtos jornalsticos mais complexos e integrados aos contedos publicados na rede, pois na Web Semntica a estruturao dos dados universalmente padronizada, o que permite o seu compartilhamento. Quando tratamos de vantagens desta tecnologia, no as consideramos exatamente como novidades, mas como o melhoramento, em algum aspecto, das funes at entoA W3C um grupo de especialistas e de empresas que desenvolvem as principais tecnologias e padres da Web. Segundo o site da W3C: The World Wide Web Consortium (W3C) is an international community that develops standards to ensure the long-term growth of the Web. Em traduo livre: A World Wide Web Consortium (W3C) uma comunidade internacional que desenvolve padres que asseguram o crescimento da Web em longo prazo. Disponvel em: . Acesso em: 23 jun 2010.1

15 desempenhadas por outras tecnologias, como, por exemplo, no encurtamento do tempo, na maximizao da eficcia ou na automatizao de operaes de publicao, distribuio, recuperao e gerenciamento de dados. Para evitarmos o determinismo presente na ideia de um processo evolucionrio linear de superao de suportes anteriores por suportes novos (PALACIOS, 2003, p. 22), tratamos estes vantagens como continuidades e potencializaes de caractersticas j exploradas pelo jornalismo digital. Por isso, antes de se analisar as potencialidades trazidas pela Web Semntica, necessrio que tenhamos claro quais as caractersticas j exploradas pelos produtos jornalsticos digitais na atualidade. A prtica do jornalismo digital est inserida em um cenrio bastante diversificado em termos tecnolgicos: alm dos computadores e da web, temos a proliferao dos dispositivos mveis conectados em rede, como os smartphones e os tablets. Com o crescimento vertiginoso na produo e no consumo de dados, uma tecnologia especfica se destaca: a base de dados (BD). Mais do que uma mera ferramenta de armazenamento, a BD passa a ser a tecnologia fundamental na organizao, estruturao e apresentao das informaes, e, por isso, define as funcionalidades e a esttica dos produtos informacionais, e passa a ser considerada um formato cultural de nossa poca (MACHADO, 2006; MANOVICH, 2001). Atualmente, os produtos jornalsticos tomam as bases de dados como o recurso estruturante em suas diferentes fases produtivas: apurao, composio e circulao (MACHADO, 2006). Por isso, a atual gerao do jornalismo digital pode ser caracterizada como a de um Jornalismo Digital em Base de Dados (JDBD) (BARBOSA, 2007). Logicamente, no basta que uma prtica profissional adote uma tecnologia para que seja decretado o incio de uma nova gerao. Barbosa (2007) lista uma srie de indcios que demonstrariam transformaes nas prticas jornalsticas e que comprovariam um movimento de transio de paradigma no jornalismo digital, tais como: o desenvolvimento de sistemas de gesto de contedos mais complexos, ampla adoo de recursos da Web 2.0, uso crescente de aplicaes mash-ups, entre outros. Destes indcios, destacamos trs que serviram de mote para a presente pesquisa: [o surgimento de] novos elementos conceituais para a organizao da informao; maior integrao do material de arquivo na oferta informativa; produtos experimentais que incorporam o conceito de web semntica (BARBOSA, 2007, p. 9). Os trs indcios citados por Barbosa surgem como iniciativas necessrias em um cenrio de saturao na massiva oferta de informao, gerada pelas facilidades oferecidas pelas tecnologias digitais na reproduo de contedos. Se por um lado temos uma grande quantidade de informaes disponibilizadas, por outro temos como consequncia problemas relacionados busca, localizao, acesso e recuperao dessas informaes. A Web

16 Semntica se prope a ser uma soluo para essa situao, pois, com a capacidade das mquinas em compreender o significado das informaes, temos como consequncia um processo de busca e recuperao de dados mais eficiente. Se, segundo autores e entusiastas da Web Semntica, esta tecnologia oferece vantagens s cincias da informao ao aproveitar o potencial dos computadores para organizar e gerenciar as informaes (ou o conhecimento) de uma forma mais eficiente (BERNERS-LEE et al., 2002; SHADBOLT et al., 2006;), ento questionamos neste trabalho: quais seriam as potencialidades que a Web Semntica ofereceria para a organizao e o gerenciamento dos contedos jornalsticos? A Web Semntica um projeto ainda em desenvolvimento. Segundo Kashyap et al. (2008), na engenharia da computao, existe uma ideia conhecida como regra 5-5-5, de que uma nova tecnologia demora aproximadamente 15 anos entre o perodo de sua concepo at sua disseminao no mercado de massa. Os primeiros cinco anos so reservados para a pesquisa, os prximos cinco anos para refinamento dos produtos baseados nestas pesquisas, e por fim, os ltimos cinco anos so para a saturao do conceito no mercado. Ao considerarmos que a Web Semntica tem como incio deste perodo o ano de 2001, quando Berners-Lee, Hendler e Lassila publicaram o artigo em que apresentam sua proposta, podemos considerar que o momento atual (2011) de transio entre a experimentao do conceito e o incio da aplicao efetiva do mesmo. Buscamos nesta investigao estudar as contribuies da Web Semntica na organizao do contedo jornalstico a partir da anlise de casos que aplicaram com sucesso este conceito no jornalismo digital. Por tratarmos de produtos digitais pioneiros, devido incipiente fase da Web Semntica, definimos que o processo metodolgico deve adotar a estratgia de estudo de caso, a fim de apresentar e analisar os resultados de tais produtos dentro do contexto do jornalismo. Ao refletirmos sobre a dimenso do conceito de Web Semntica, percebemos que os produtos podem vir a explorar determinados benefcios e deixar de explorar outros. Por isso, consideramos que a melhor metodologia para este trabalho aquela que analisa mais de um caso, para abrangermos uma quantidade maior de funes das tecnologias semnticas na nossa observao. Adotamos, ento, como objetivo principal, identificar contribuies do uso das tecnologias semnticas na organizao e gerenciamento dos produtos jornalsticos digitais. Para que isso seja possvel, precisamos alcanar resultados nos seguintes objetivos especficos: 1) identificar quais so as tecnologias semnticas utilizadas nos produtos jornalsticos selecionados, 2) compreender como elas so aplicadas, 3) identificar quais as razes do uso destas tecnologias, e, por fim, 4) relacionar os dados obtidos na investigao dos casos selecionados ao atual paradigma do Jornalismo Digital em Base de

17 Dados, a fim de se compreender as possveis contribuies da proposta da Web Semntica prtica do jornalismo digital. Para isso, os resultados da pesquisa foram analisados luz das categorias levantadas por Barbosa (2007, 2008a) em estudos sobre o JDBD, a fim de se descobrir se h indcios de potencializaes destas caractersticas. Os objetivos citados caracterizam a atual pesquisa como exploratria devido ao trabalho de identificao das tecnologias empregadas, do seu modus operandi no produto em anlise e, tambm, devido busca de esclarecimentos sobre como um determinado fenmeno funciona em um contexto, no caso a Web Semntica no jornalismo. Segundo Gil, as pesquisas exploratrias so desenvolvidas com o objetivo de proporcionar viso geral, de tipo aproximativo, acerca de determinado fato. Este tipo de pesquisa realizado especialmente quando o tema escolhido pouco explorado [...] (1989, p. 45). Para o autor, geralmente este tipo de pesquisa realizado atravs de levantamento bibliogrfico, entrevistas no padronizadas e estudos de caso. Para delimitarmos o universo da anlise, determinamos que os casos selecionados deveriam ser produtos desenvolvidos por iniciativas oriundas do mainstream jornalstico, ou seja, de organizaes consolidadas no mercado. Aps pesquisas bibliogrficas e documentais e observaes diretas de produtos da web, a organizao escolhida2 foi a British Broadcasting Corporation (BBC), emissora pblica de rdio e televiso do Reino Unido. A emissora possui uma equipe de profissionais especializados em arquitetura da informao e desenvolvimento web, e j demonstrou o uso de tecnologias semnticas em mais de um produto. Para realizarmos a nossa investigao, selecionamos dois produtos da BBC, cada um deles como um caso a ser estudado: o site BBC World Cup 2010 (um site que abriga todo o contedo jornalstico da BBC relacionado Copa do Mundo de 2010) e o site BBC Wildlife (um site que rene uma grande produo de contedo multimdia sobre a vida natural). Para cada caso analisado, tanto a coleta quanto a anlise dos dados foram realizadas com o apoio de um protocolo (APNDICE A) que divide o processo em duas etapas: uma para a descrio do produto estudado e outra para a anlise do emprego das tecnologias semnticas. Na primeira etapa, foi realizada uma observao direta semiestruturada dos produtos digitais selecionados, para que fossem registradas a identificao do produto e a descrio de suas funcionalidades. Na segunda etapa, alimentada pela coleta de dados secundrios, buscamos:

2

O processo de seleo do corpus detalhado no 3 captulo.

18 1) identificar o contexto que justificasse o uso das tecnologias semnticas, 2) identificar as principais tecnologias semnticas empregadas pelo produto estudado, 3) descrever o funcionamento das tecnologias semnticas identificadas, 4) analisar qualitativamente as vantagens encontradas pelas respectivas organizaes ao utilizarem tecnologias semnticas, sob a luz das caractersticas do JDBD apresentadas por Barbosa: dinamicidade, automatizao, flexibilidade, interrelacionamento/hiperlinkagem, densidade informativa, diversidade temtica, visualizao (BARBOSA, 2007) e convergncia (idem, 2008). A anlise foi realizada pela confrontao de dados obtidos em diferentes fontes, como artigos, documentos, entrevistas, debates e apresentaes disponibilizados pelos tcnicos desenvolvedores dos produtos estudados. O desenvolvimento do presente texto est organizado em trs captulos. No primeiro, intitulado Jornalismo de Dados, realizada uma retomada dos estudos sobre jornalismo digital nos ltimos anos no Brasil: apresentamos alguns aspectos importantes sobre o jornalismo digital, como as suas caractersticas e as suas trs geraes iniciais. Seguimos para o referencial terico sobre a tecnologia das bases de dados (BDs), as BDs como formato cultural e como esttica de nosso tempo (database aesthetic), at chegarmos ao uso das bases de dados no jornalismo. Tratamos, ento, do paradigma do Jornalismo Digital em Base de Dados (JDBD), importante conceito para a nossa anlise. neste trecho que apresentamos as categorias para estudo sobre JDBD propostas por Barbosa (2007, 2008a) e que aplicamos em parte da anlise dos dados. Para finalizar o captulo, apresentamos brevemente alguns dos termos e conceitos empregados em outras partes do mundo para a prtica do jornalismo em uma era marcada pelas quantidades massivas de dados que circulam globalmente, alm de prticas emergentes no jornalismo que surgem em decorrncia deste cenrio, como as infografias interativas e os aplicativos jornalsticos. Por termos tratado tambm destes conceitos, julgamos mais apropriado generalizar o ttulo do captulo como Jornalismo de Dados (livre traduo do termo amplamente utilizado data journalism), pois acreditamos que o termo englobe tambm as prticas do JDBD. No segundo captulo, passamos para o referencial terico relacionado ao campo da Computao. Aqui, tratamos de apresentar e explicar o conceito de Web Semntica, de acordo com a proposta de Berners-Lee et al (2002). O referencial aborda as principais tecnologias semnticas recomendadas pela W3C (triplos em RDF e ontologias em OWL), alm de tpicos

19 derivados desta combinao de tecnologias, como a linguagem de query3 SPARQL, os repositrios de triplos, a tcnica de tagging, entre outros. Por fim, apresentamos o projeto Linked Data, que uma srie de prticas padronizadas para se publicar dados abertos na web, apropriados para o compartilhamento entre diferentes sites na lgica da Web Semntica. Cabe ressaltar que a Web Semntica um conceito de uma rede semntica de dados, e que a W3C no a nica que prope solues tecnolgicas para a realizao desta proposta (AKERKAR, 2009). Nossas escolhas sobre as solues abordadas foram determinadas pelas tecnologias semnticas empregadas pelos casos estudados. importante esclarecer que buscamos explicar o que , como funciona e para que serve a Web Semntica de uma forma didtica. Acreditamos que o conceito da Web Semntica ainda no ocupa um lugar destacado nos debates acadmicos sobre o jornalismo digital; ao menos no no Brasil. No decorrer dos nossos estudos, encontramos um nmero reduzido de bibliografias da rea que tratam de explicar esta proposta sob o ngulo de um jornalista. Acreditamos que o tema Web Semntica dever ser mais explorado pela comunidade acadmica do campo da comunicao em trabalhos futuros, e, por isso, esperamos que o captulo sobre a Web Semntica possa vir a auxiliar no entendimento desta tecnologia queles que no esto habituados com os estudos da rea tecnolgica. No ltimo captulo, apresentamos a anlise dos dois casos selecionados. Cada um dos casos foi identificado e teve seu funcionamento descrito. Tambm trazemos para cada caso uma apresentao dos autores que nos baseamos para coletar os dados. Por fim, relatamos para cada caso as tecnologias semnticas empregadas, o funcionamento das mesmas e a anlise comparativa com as caractersticas do JDBD. O resultado da anlise demonstra que a Web Semntica potencializa algumas caractersticas do JDBD, principalmente devido combinao das mesmas com a capacidade apurada de automao, e aponta para uma provvel ruptura em relao s atuais caractersticas do jornalismo digital, que s ser vivel caso se consolide de fato uma rede de dados semntica na web.

3

O termo query significa um comando de pesquisa por determinados dados em um banco de dados.

20

21

1 JORNALISMO DE DADOSCom o surgimento da web, seguido de sua popularizao, as prticas profissionais baseadas na produo e distribuio de contedo informativo e miditico sofreram transformaes, algumas bastante evidentes. No jornalismo, a web tambm teve um impacto significativo nas rotinas de produo e no consumo. As potencialidades do suporte digital em rede criaram possibilidades na construo de narrativas e na apresentao das mesmas, pois, alm de herdar a multimidialidade dos diferentes suportes tradicionais, a interface da web interativa e hipertextual (CANAVILHAS, 2001). Como consequncia, a prtica jornalstica na web, denominada neste texto como jornalismo digital4, desenvolveu certas caractersticas que a destacam de outras modalidades de jornalismo, como o impresso, o radiojornalismo e o telejornalismo.

1.1 Fases e caractersticas do Jornalismo Digital Entre a metade da dcada de 1990 e o incio da dcada de 2000, alguns estudiosos apresentaram propostas de caracterizaes da prtica jornalstica em suportes digitais em rede. Palacios (2003) realizou uma compilao dessas caractersticas do jornalismo digital e tambm sugeriu outras, resultando assim em um total de seis: Multimidialidade/convergncia: a convergncia das mdias tradicionais (imagem, som, texto) na narrativa. Isso possvel devido ao formato digital dos dados, que permite integr-los no suporte. Tambm possvel acrescentar narrativa outros recursos multimdia, como as animaes 2D ou 3D. Interatividade: a relao estabelecida entre o usurio e o site e/ou o jornalista. Nesta relao, o leitor sente-se parte integrante do processo jornalstico, pois pode influenciar a narrativa com suas aes. Esta interatividade tambm pode ocorrer entre os usurios do site, com recursos como chats e fruns de discusses; ou entre o usurio e os produtores do contedo, como os jornalistas, via e-mail. Mielniczuk4

Na literatura, h diferentes propostas de nomeao da prtica do jornalismo na internet. Mielniczuk (2003) cita algumas das propostas apontadas por autores, como jornalismo eletrnico, jornalismo digital, jornalismo multimdia, ciberjornalismo, jornalismo online e webjornalismo. Cada termo implica em relaes da prtica jornalstica com outros suportes que no apenas a web, por isso, na poca, a autora acompanhou Canavilhas (2001) ao apontar o termo webjornalismo como o mais apropriado, pois segue a mesma lgica de nomeao de outras modalidades do jornalismo, como o radiojornalismo e o telejornalismo, em que o nome do suporte colocado antes do termo jornalismo. Entretanto, neste trabalho tratamos a prtica com o termo mais abrangente jornalismo digital devido recente emerso de novas tecnologias digitais que no dependem da web, como no caso dos aplicativos para smartphones.

22 (2001) aponta ainda a interatividade entre usurio e mquina; e entre usurio e a prpria publicao, atravs do hipertexto. O pesquisador Alex Primo sugere a substituio do termo usurio pelo termo interagente, pois tal termo emana a idia de interao, ou seja, a ao (ou relao) que acontece entre os participantes. Interagente, pois, aquele que age com outro (PRIMO, 2003, p. 7). Hipertextualidade: a possibilita de interconexo entre textos a partir de links. Leo (2001) define que os blocos de informaes interconectados pelos links podem ser denominados de lexias, que podem ser texto, imagem, som, vdeo etc; ou uma composio com vrios destes elementos. Customizao do contedo/personalizao: a possibilidade de o interagente configurar o site jornalstico de acordo com seus interesses. Estas configuraes podem ser visuais (cores, tamanho dos caracteres etc.), editoriais (pr-seleo dos assuntos, hierarquizao de editorias etc.) entre outras. Instantaneidade/atualizao contnua: a extrema agilidade na atualizao do contedo disponibilizado para o usurio. Ao contrrio da periodicidade do jornalismo impresso, no jornalismo digital as notcias so publicadas instantaneamente e em fluxo contnuo. A televiso e o rdio tambm so instantneos, porm a disponibilidade da informao limitada no tempo, ou seja, o telespectador/ouvinte precisam estar a consumir a informao no exato momento em que ela veiculada, ao contrrio do jornalismo digital, em que o fluxo contnuo armazenado para acesso a qualquer momento. Memria: a capacidade de armazenar os produtos jornalsticos j produzidos anteriormente. Segundo Palacios (2002), o armazenamento de informaes mais vivel tcnica e economicamente na web do que em outras mdias. Esta memria pode ser disponibilizada tanto aos produtores quanto aos interagentes do contedo. Para o autor, essas no so caractersticas novas, pois, de certa forma, tambm podem estar presentes em suportes anteriores. Segundo Palacios, [...] as caractersticas do Jornalismo na web aparecem, majoritariamente, como Continuidades e Potencializaes e no, necessariamente, como Rupturas com relao ao jornalismo praticado em suportes anteriores (2003, p. 22). Contudo, para o autor, possvel apontar algumas rupturas e a principal delas a memria, pois, pela primeira vez na histria, o jornalismo pode se aproveitar de um espao praticamente ilimitado, disponvel tanto ao produtor quanto ao

23 consumidor da informao; e, ainda, tal quantidade potencialmente ilimitada de informaes combinada s outras caractersticas do jornalismo digital, como a interatividade e a instantaneidade. Logo, a especificidade do jornalismo na web se encontra no apenas pela Potencializao das caractersticas j descritas, mas principalmente pela combinao dessas caractersticas potencializadas, gerando novos efeitos (PALACIOS, 2003, p. 24). As caractersticas que diferenciam o jornalismo digital no apareceram de uma hora para a outra. As potencialidades foram descobertas e postas em prtica de forma gradual, de acordo com a evoluo da web. Enquanto tais caractersticas ainda no eram exploradas, os profissionais jornalistas tendiam a repetir na web os formatos e linguagens dos suportes tradicionais a que eram costumados a produzir. Segundo Canavilhas,Marshall McLuhan afirmava que o contedo de qualquer medium sempre o antigo medium que foi substitudo. A internet no foi excepo. Devido a questes tcnicas, (baixa velocidade na rede e interfaces textuais), a internet comeou por distribuir os contedos do meio substitudo - o jornal. S mais tarde a rdio e a televiso aderiram ao novo meio, mas tambm nestes casos se limitaram a transpor para a internet os contedos j disponibilizados no seu suporte natural (2001, online).

Os sites jornalsticos no passaram a explorar as caractersticas do jornalismo digital de forma uniforme. A iniciativa de se explorar as caractersticas ocorreu de forma gradual e dispersa. Mesmo assim, possvel definir alguns perodos na recente histria desta prtica, para fins de estudo sobre o desenvolvimento do jornalismo nos ambientes digitais em rede. Mielniczuk (2003) prope uma classificao dividida em trs momentos: o webjornalismo5 de primeira gerao (ou fase da transposio), o webjornalismo de segunda gerao (ou fase da metfora) e o webjornalismo de terceira gerao. Na primeira gerao, os contedos das pginas jornalsticas so apenas reprodues de partes de grandes jornais impressos; ou seja, o jornalismo digital era uma transposio de algumas das matrias do jornal impresso para um formato digital, sem adaptao de linguagem e de formato. A atualizao era feita a cada 24 horas, pois dependia do fechamento da edio do jornal impresso para que fosse realizada a substituio das matrias nos sites. Na segunda gerao, que comeou aproximadamente no final dos anos 1990, comea a existir a preocupao em explorar alguns dos recursos da web, como a atualizao de notcias durante o decorrer do dia, geralmente em sees chamadas ltimas notcias; tambm h maior explorao do hipertexto e do e-mail (entre o leitor e o jornal/jornalista). Mesmo assim,No texto em questo, a autora decidiu por adotar o termo webjornalismo, que tratamos aqui como sinnimo de jornalismo digital.5

24 o modelo do suporte impresso continua como uma referncia para o formato dos produtos jornalsticos na web. No webjornalismo de terceira gerao, toma fora o pensamento de que essa uma prtica diferente do jornalismo impresso, com um potencial de linguagem e formato prprios. Os sites jornalsticos passam a utilizar recursos mais especficos da web como os de multimdia (som, imagem), chats, enquetes, fruns de discusses, opes de configurao do site de acordo com os interesses do usurio, e o emprego do hipertexto no s na organizao da informao, como tambm dentro da narrativa jornalstica. A autora cita como exemplo desta gerao o site jornalstico MSNBC (www.msnbc.com), que no surgiu de um jornal impresso tradicional, mas da fuso entre uma empresa de software (Microsoft) e outra de telejornalismo (NBC). Embora a classificao de Mielniczuk identifique repeties de tendncias em sites jornalsticos no decorrer dos ltimos anos, no significa que todos os produtos jornalsticos da atualidade faam parte da terceira gerao; ainda existem sites que se enquadrariam dentro da primeira, da segunda ou at em mais de uma gerao. necessrio ressaltar que a proposta de classificao das fases do webjornalismo de Mielniczuk, publicada em 2003, surgiu em um contexto de plena evoluo tecnolgica dos computadores, das redes e dos software aplicativos. Desde ento, as potencialidades da web foram incrementadas com o surgimento, popularizao ou intensificao no uso de outras tecnologias que se integraram rede, alm da maturao daquelas j exploradas. Como exemplo, podemos citar as bases de dados (BDs) que, embora j fossem utilizadas na web em meados da dcada de 1990, comearam a ser exploradas de forma mais complexa e diversificada nos anos 2000, como no caso dos blogs. Naturalmente, as empresas jornalsticas passaram a experimentar a aplicao desses recursos em seus produtos. Segundo Ribas, a utilizao dos Bancos de Dados aparece em um momento de avanos do terceiro estgio do webjornalismo (2004, p. 9). Dentro deste contexto, autores como Schwingel (2005), Barbosa (2007) e Larrondo, Mielniczuk e Barbosa (2008) propem o surgimento de uma quarta gerao do jornalismo digital, caracterizada pelo uso sistemtico das BDs.

1.2 Jornalismo Digital em Base de Dados (JDBD) Desde o incio da dcada de 1990, quando a web surgiu, a conexo de novos servidores na internet passou a crescer em um ritmo exponencial, e a publicao de novas pginas acompanhou esse ritmo, j que os servidores tambm so utilizados para a

25 hospedagem de sites6. O crescimento da publicao de contedos em pginas HTML estticas passou a ser um problema quando empresas e usurios comearam a utilizar a rede para atividades que exigiam operaes de gerenciamento de dados. Tal situao resultou no desenvolvimento de solues mais flexveis para o gerenciamento de dados na internet, atravs das bases de dados. 1.2.1 Bases de dados Uma base de dados (BDs), ou banco de dados, um mecanismo capaz de manipular, armazenar e organizar informaes de modo que possam ser recuperadas rapidamente e a qualquer momento (OLIVIERO, 2002, p. 26). Logo, as BDs no so apenas estruturas para armazenamento de dados, elas tambm servem para gerenci-los de forma mais eficiente. Segundo Barbosa (2007), alguns autores da literatura especializada diferenciam os termos banco de dados de base de dados: banco geralmente utilizado para se referir ao contedo, enquanto que base utilizada para se referir estrutura lgico-matemtica. Entretanto, por no termos como foco o debate sobre padres tcnicos da tecnologia e por considerarmos a terminologia nas pesquisas em pases que se destacam nessa rea de estudo, como EUA (database), Espanha e Portugal, decidimos adotar o termo base de dados para nos referirmos a ambos os conceitos e assim acompanhamos, neste trabalho, a mesma escolha terminolgica de Barbosa. De acordo com Takai (et al, 2005), as possveis aes de gerenciamento dos contedos armazenados nas BDs so definidas e executadas pelo Sistema Gerenciador de Banco de Dados (SGBD). Os SGBDs surgiram na dcada de 1960 e, desde ento, evoluram em diversos tipos ou modelos, cada qual mais apropriado para determinados contextos. Entre esses modelos, os mais utilizados so: o modelo hierrquico7, o modelo em redes8, o modelo relacional9 e o modelo orientado a objetos10.

possvel observar o aumento do nmero de servidores em cada ano em uma pgina da Internet Systems Consortium, que apresenta estas estatsticas em uma tabela atualizada periodicamente. Disponvel em: . Acesso em: 12 dez. 2010. 7 Surgiu nos primeiros SGBDs; so estruturados em hierarquias ou rvores, e os registros so associados uns aos outros em sequncias hierrquicas, como se fossem galhos (TAKAI, et al, 2005). 8 Surgiu como uma extenso ao modelo hierrquico, quebra a ordem hierrquica ao permitir associao dos registros a vrios outros que estejam fora de suas sequncias, ou seja, de outros galhos (TAKAI, et al, 2005). 9 Amplamente utilizado nos dias atuais, so modelos baseados em tabelas, em que cada tabela possui dados estruturados em colunas e linhas, que podem ser relacionados a outras tabelas da base de dado. 10 Surgiu para sanar algumas limitaes do modelo relacional em determinados casos especficos e mais complexos (TAKAI, et al, 2005).

6

26 Ainda segundo Takai (et al, 2005), os sistemas de bases de dados podem ser estruturados em diferentes arquiteturas. Uma arquitetura muito utilizada a do clienteservidor, apropriada para redes de computadores. Nesta arquitetura, os servidores (computadores principais) armazenam os dados, que so ento solicitados pelas mquinas clientes (como PCs e impressoras), conectados aos servidores em um ambiente em rede. Desta mesma forma funcionam os sistemas gerenciadores de bancos de dados. Segundo Oliviero:- As informaes pertencentes ao banco de dados ficam concentradas em um ou mais servidores que tm por objetivo servir as demandas de consultas, alteraes, incluses, etc. requisitadas pelos seus clientes. - Todo processo realizado no servidor (ou servidores) pelo gerenciamento de banco de dados. Os clientes (usurios finais) apenas recebem em suas estaes as informaes j processadas e organizadas, diminuindo drasticamente o trfego na rede e conseqentemente aumentando o desempenho do sistema com respostas mais rpidas e eficientes (OLIVIEIRO, 2002, p. 28-29).

A web utiliza a lgica cliente-servidor, pois as pginas em HTML so armazenadas em servidores conectados internet, enquanto os computadores (clientes) fazem a requisio destes arquivos, que so enviados, armazenados localmente e ento interpretados pelos navegadores. Ento, quando um site utiliza um sistema de armazenamento de contedo em bases de dados, significa que um SGBD gerencia os dados em um servidor que, por sua vez, alimenta a pgina HTML enviada para os clientes da web (os software navegadores instalados nos computadores pessoais) (REESE, 2000). Alm da arquitetura cliente-servidor, a web tambm utiliza a BD relacional. Este modelo baseado em organizao por tabelas, em que cada tabela possui dados estruturados em colunas e linhas, que podem ser relacionados a outras tabelas da base de dado. Ento, quando um computador faz uma requisio de dados armazenados em uma base de dados, o SGBD instalado no servidor executa as aes necessrias nas tabelas que formam a base de dados alocada neste servidor em questo. Entre as aes possveis, podemos citar: a incluso de novos dados, a alterao ou excluso de dados armazenados e a recuperao (busca) de determinados dados. A web comeou como sistema de documentos digitais estticos, ou seja, sem o uso de bases de dados para o armazenamento dos contedos. Com o tempo, as BDs se consolidaram como uma forma mais eficiente de armazenamento de dados na web, e uma das razes para essa consolidao foi a disseminao das ferramentas de publicao e dos sistemas gerenciadores de contedos (Content Managment System ou CMS), que so sistemas

27 direcionados administrao e gerenciamento do contedo, voltado para publicao, para os processos de seleo, aprovao e edio dos mesmos (SCHWINGEL, 2009, p. 2). As pginas que publicam informaes diretamente no cdigo HTML so chamadas estticas, enquanto as que publicam a partir de bases de dados so chamadas de dinmicas, pois tm seus contedos modificados mais facilmente e muitas vezes de forma automatizada. Nesta mesma linha de pensamento, Kashyap divide o contedo da web em dois grupos: o primeiro, chamado de web superficial, um grupo de pginas estticas publicamente disponveis na rede. O outro grupo, denominado web profunda, consiste em bases de dados acessveis web e tambm de pginas dinmicas, que no so largamente conhecidas pelo usurio comum, mesmo que a informao disponvel na web profunda seja 400 a 550 vezes maior que a informao na superfcie 11 (2008, p. 23, traduo nossa12). Com base na sistematizao das geraes do jornalismo digital (MIELNICZUK, 2004), podemos associar a web superficial aos produtos encontrados nas primeiras geraes e a web profunda aos produtos da terceira gerao e tambm aos produtos da quarta gerao do jornalismo digital, que seria a fase caracterizada pelo uso sistemtico das bases de dados (BARBOSA, 2007). 1.2.2 Bases de dados como forma cultural As funcionalidades das BDs em modelos relacionais e estruturadas na arquitetura cliente-servidor tm um poder potencial de criao bastante significativo nos meios digitais, justamente devido s possibilidades de associaes e combinaes de dados digitais, mesmo nos casos em que os dados se encontram em formatos diferentes, pois apresentam natureza bastante flexvel nas combinaes. Para se compreender essa natureza dos dados, Manovich (2001) lista em seu o texto The Language of New Media cinco princpios das novas mdias que se aplicam aos contedos digitais: representao numrica: qualquer mdia digital, independente de ser originalmente criada no computador ou convertida de um suporte analgico, composta por cdigos digitais que so representados numericamente; logo, todas as mdias digitais podem ser manipuladas matematicamente; modularidade: todas as mdias digitais so formadas pelas mesmas estruturas modulares, independente da escala em que se encontram: a foto formada por11

[] wich are not widely known by average surfers, even though the information available on the deep Web is 400 to 550 times larger than the information on the surface. 12 As tradues realizadas neste trabalho foram realizadas pelo autor do presente trabalho. Para cada trecho traduzido, apresentamos tambm a citao na lngua original, em nota de rodap.

28 pixels, o vetor formado por curvas e linhas etc. Tais mdias podem ser combinadas, mas podem manter suas estruturas modulares independentes umas das outras, como no caso de uma animao em Flash, que combina udio, imagens, textos e vdeos. Mesmo que exista combinao, cada mdia mantm sua estrutura mnima. Nas pginas HTML, ocorre o mesmo; automao: os princpios da representao numrica e da modularidade permitem que certas operaes sejam automatizadas na criao, na manipulao e no acesso das mdias, removendo em parte a participao humana no processo de criao; variabilidade: como consequncia dos princpios da representao numrica e da modularidade, as novas mdias podem existir em diferentes (potencialmente infinitas) verses. Ao invs de variabilidade, seria possvel utilizar tambm os termos mutvel ou lquido; transcodificao: considerada por Manovich a consequncia mais substancial da computadorizao da mdia, o princpio diz que as novas mdias, quando digitalizadas, passam a ser codificadas tanto em um formato com organizao estrutural compreensvel por humanos (como o significado simblico de uma imagem a partir das linhas, curvas etc), quanto em uma organizao estrutural compreensvel pelas mquinas a partir de convenes estabelecidas (como a cor RGB dos pixels, a dimenso da foto, o tamanho do arquivo). Com a transcodificaes, os computadores podem relacionar diferentes tipos de arquivos (textos, udios, vdeos etc) a partir destas convenes. Ao identificar a organizao estrutural reconhecida por humanos como camada cultural (cultural layer) e as convenes dos computadores como camada computacional (computer layer), e ao considerar que as novas mdias so criadas, distribudas, armazenadas e arquivadas em computadores, Manovich (2001) acredita que a camada computacional dever comear a influenciar de forma significativa na lgica cultural tradicional da mdia; ou seja, a camada computacional dever influenciar a camada cultural. Para ilustrar como as mdias podem ser estruturadas por BDs e como podem explorar os princpios propostos por Manovich, citamos como exemplo os vdeos do site YouTube13: enquanto os suportes tradicionais de vdeo (cinema e televiso) apresentam basicamente uma sucesso de imagens sincronizadas com uma ou mais trilhas de udio, o YouTube tem a13

http://www.youtube.com

29 capacidade de apresentar o mesmo recurso (imagens em movimento com udio), mas tambm permite a combinao desse produto audiovisual com contedos que estejam em outros formatos e armazenadas em BDs, como, por exemplo, comentrios (em textos) ou links (atravs de figuras clicveis em forma de caixas). Para ilustrao, apresentamos um caso especfico de um vdeo do YouTube: nele, apresentado um comentrio do prprio autor (tela direita da Figura 1), que aparece em determinado local do plano do vdeo e em limitado perodo de tempo (circulado na Figura 1). O comentrio foi inserido de forma dinmica no vdeo, pois estava armazenado em uma tabela de base de dado.

Figura 1 Vdeo do YouTube com insero dinmica de comentrio sobreposto ao vdeo14

Ao final do vdeo, so mostradas duas caixas em determinadas reas que funcionam como links (marcadas na Figura 2), para remeter o usurio a outros vdeos do mesmo autor. A localizao e o tamanho das caixas, assim como o perodo de tempo e o link a qual remetem, so informaes fornecidas por uma base de dado.

14

Mystery Symphony. Disponvel em: < http://www.youtube.com/watch?v=Ul95hTnO3h4>. Acesso em: 25 jan 2011.

30

Figura 2 Vdeo do YouTube com insero dinmica de links sobrepostos ao vdeo15

O inter-relacionamento de diferentes formatos de mdias ocorreu porque as BDs podem relacionar dados que esto em formatos diferentes, mas codificados com o mesmo cdigo binrio (princpio da representao numrica). Para isso, o site relacionou tabelas16 de base de dados diferentes (ex.: relacionou a base de dados do audiovisual com as tabelas de comentrios armazenadas em outras tabelas), cruzou tais dados de forma automatizada (princpio da automao) para formar um novo produto resultado de vrias combinaes, embora os elementos que formam esse novo produto ainda mantenham as suas caractersticas prprias (princpio da modularidade). Esse produto ainda poderia ser apresentado de outras maneiras, atravs da agregao de elementos surgidos posteriormente publicao, como sobreposio de novos comentrios oriundos de redes sociais ou combinaes com outras mdias relacionadas que seriam publicadas no futuro (princpio da variabilidade). Alm do produto audiovisual com sobreposio dinmica de dados armazenados em BDs, o YouTube tambm apresenta uma pgina HTML que combina o resultado de outros cruzamentos de dados. Seguindo no exemplo do vdeo anterior, podemos perceber que a pgina dedicada ao vdeo em questo tambm apresenta resultados de buscas em BDs15

Mystery Symphony. Disponvel em: < http://www.youtube.com/watch?v=Ul95hTnO3h4>. Acesso em: 25 jan 2011 16 O exemplo do vdeo no YouTube ilustra o funcionamento de uma base de dado relacional em um produto que envolve composio de uma pgina com elementos multimdia. Porm, cabe ressaltar que a empresa Google desenvolveu um modelo de base de dado prprio, denominado Bigtable, que tecnicamente no considerado relacional, mas distribudo, embora utilize tabelas, linhas e colunas (CHANG et al, 2006). Segundo desenvolvedores da empresa, embora o Bigtable no seja tecnicamente considerado modelo relacional, ele se assemelha a esse modelo no seu funcionamento, porm com algumas especificidades que o grande volume de dados gerado em seus servios exige e o modelo relacional no comporta. Logo, tomamos o exemplo do YouTube como uma possibilidade vivel em uma base de dados relacional.

31 diversas; o caso da seleo e apresentao de informaes relativas ao vdeo (ver marcao A na Figura 3), tais como descrio, nmero de visitas, avaliaes, lista de vdeos sugeridos por outros usurios como resposta ao vdeo apresentado na pgina (marcao B na Figura 3), comentrios de usurios (marcao C na Figura 3) e vdeos relacionados ao apresentado na pgina (marcao D na Figura 3).

Figura 3 Pgina de vdeo do YouTube com insero dinmica de dados17

17

Mystery Symphony. Disponvel em: < http://www.youtube.com/watch?v=Ul95hTnO3h4>. Acesso em: 25 jan 2011

32 Provavelmente, o autor18 do vdeo apresentado neste caso tem na criao de seus audiovisuais a influncia da camada computacional. Percebemos que, em alguns de seus vdeos, a personagem costuma realizar gesticulaes com as mos e apontar com os dedos para as caixas de link criadas pelo editor do vdeo, demonstrando que a produo de imagens pode ser planejada de acordo com os elementos gerados a partir de BDs. Alm disso, seus vdeos podem apresentar uma linha de criao que privilegia a participao de seu pblico, j que em muitos produtos h a incorporao de materiais produzidos pelos usurios, como o caso ilustrativo da Figura 3, em que a edio rene gravaes enviadas pelos usurios para, ento, formar um concerto musical de maneira colaborativa. A proposta de envio de materiais articulada nos comentrios da pgina do YouTube, ou seja, atravs de um elemento gerado pela BD. Assim como o vdeo do YouTube apresentado no exemplo anterior, outros produtos culturais de nossa era so planejados, desenvolvidos, estruturados e apresentados com uma esttica caracterstica que os diferenciam dos produtos tradicionais. Nessa esttica, as diferentes mdias so combinadas com elementos gerados a partir das BDs, tais como os comentrios e avaliaes de usurios, os links e as sugestes automticas de contedos relacionados. Do mesmo modo que a narrativa literria ou cinematogrfica um plano arquitetnico na Modernidade, a Base de Dados emerge como uma forma cultural tpica para estruturar as informaes sobre o mundo/realidade na cultura dos computadores (MACHADO, 2006, p. 17). Portanto, mais do que uma mera ferramenta de armazenamento, as BDs passam a ser a tecnologia fundamental na organizao, estruturao e apresentao de contedos diversos, tanto os culturais e artsticos quanto os prprios produtos informativos e miditicos (como os jornalsticos). A importncia das BDs emerge no apenas pela funo facilitadora na insero, edio, seleo e combinao de dados, mas tambm por ser a estrutura elementar de uma esttica tpica da era dos computadores; uma era marcada pelo crescimento exponencial dos dados e acostumada com a estrutura do hipertexto e com a convenincia da interao homemmquina, caractersticas essas que distanciam os atuais contedos digitais dos formatos tradicionais, limitados no espao/tempo e com possibilidades hipertextuais e interativas restritas. Para este formato tpico dos computadores, Farbiaz e Barbosa (2009) apresentam o termo esttica base de dados (database aesthetic), termo que na rea da arte digital significa18

O MysteryGuitarMan um produtor assduo do site YouTube, com produo mensal de vdeos e com mais de 300 milhes de exibies em janeiro de 2012. Estatsticas disponveis na pgina do usurio no YouTube. Disponvel em: . Acesso em: 25 jan. 2012.

33 os princpios estticos aplicados na imposio da lgica das bases de dados a qualquer tipo de informao, filtro de colees de dados e visualizao dos dados 19 (PAUL, online, p. 1), princpios esses presentes nos produtos das BDs que caracterizam a produo cultural de nossa era. Por isso, Manovich defende que as BDs so formas culturais tpicas das sociedades em redes, pois estruturam todo o processo criativo quando o objeto consiste de uma ou mais interfaces vinculadas s BDs (MACHADO, 2006). No contexto do jornalismo digital, a esttica base de dados uma metfora com um modo particular para a apresentao das informaes jornalsticas j desvinculado da metfora do impresso - broadsheet metaphor - e que procede diretamente do emprego das BDs (FARBIAZ E BARBOSA, 2009, p. 1). Segundo Machado, evidente que h uma migrao do conhecimento produzido pelas organizaes jornalsticas para as BDs, e por isso que a plena incorporao destas organizaes lgica do ciberespao pressupe uma adequao de suas estruturas ao formato das Bases de Dados (2006, p. 7). Para o autor, a modalidade jornalstica que usa as BDs utiliza esta tecnologia para todos os processos de produo jornalstica: apurao, composio e circulao. 1.2.3 Bases de dados no jornalismo Embora o jornalismo digital tenha passado a adotar as BDs em seus produtos na terceira gerao do webjornalismo (RIBAS, 2004), no foi a primeira vez que elas foram incorporadas a essa prtica profissional. Ainda na dcada de 1970, segundo Barbosa (2007), as BDs j eram utilizadas nas redaes, porm no como forma de organizao ou apresentao da narrativa jornalstica; elas eram utilizadas como ferramentas de arquivamento e, em seguida, como auxlio ao processo de apurao dentro das redaes, contribuindo para o desenvolvimento da Reportagem Assistida por Computador (CAR). Como exemplo de sistema de armazenamento, Machado (2006) cita o caso do The New York Times que na metade dos anos 1980 j possua uma base de dados com trs milhes de documentos. Entretanto, poucas empresas jornalsticas so estruturadas em BDs, por mais que estas ofeream vantagens pesquisa e apurao jornalsticas. O autor tenta buscar uma resposta a esse enigma e, para isso, evoca os conceitos de mnm e anmnsis do filsofo grego Aristteles. A mnm significa a simples conservao do passado; j a anmnsis consiste na ativao desse passado no presente. As redaes geralmente seguem a linha do primeiro19

[] aesthetic principles applied in imposing the logic of the database to any type of information, filtering data collections, and visualizing data [].

34 conceito ao utilizarem as BDs apenas como sistema de armazenamento da memria em redes de dados internas e, assim, deixam de aproveitar a potencialidade de se construir narrativas com a explorao dos dados armazenados de forma estruturada. As BDs j eram utilizadas em redaes antes do surgimento da web, mas podemos identificar potencialidades de sua incorporao especificamente no jornalismo digital. Segundo Machado, a lgica arquivista no conceito de mnm contraria as caractersticas da memria no ciberespao porque mantm um processo individual e centralizado da produo (2006, p. 26). O autor afirma ainda que para haver a incorporao da lgica das bases de dados s empresas jornalsticas, dever ocorrer a utilizao casada das funes de modelo de estruturao da informao, espao para a criao de narrativas e lugar para a ativao da memria (2006, p. 27). Nesse sentido, a base de dados se constituiria como espao para a criao de narrativas porque mais do que um sistema matemtico-lgico de armazenamento, as bases de dados assumem trs funes na sociedade: 1) de formato para a estruturao da informao; 2) de suporte para modelos de narrativa multimdia e 3) de memria dos contedos publicados (MACHADO, 2006, p. 16); e por essa razo o autor concorda com Manovich na afirmao de que a base de dados uma forma cultural tpica das sociedades das redes, assim como a tradicional narrativa linear tambm uma forma cultural, construda em suportes lineares como voz, impresso, TV e rdio. No entanto, ao invs de contrapor as duas formas culturais (BDs x narrativas), Manovich afirma que necessrio reconsiderar o conceito de narrativa, pois se no conceito tradicional uma narrativa um objeto cultural que possui um narrador, um ator (ou mais) e uma histria com uma sequncia de eventos (MACHADO, 2006), hoje, com as interfaces interativas, as narrativas nas novas mdias giram em torno de um espao no necessariamente linear, navegvel (atravs dos hiperlinks), ativado por um usurio que detm o controle da navegao. Alm da produo de narrativas, as BDs na web tambm potencializam o consumo da informao, pois, diferentemente das redes internas e privadas de arquivamento de dados, no jornalismo digital os usurios tm acesso s BDs de forma instantnea, atravs de sistemas de busca presentes nos sites ou a partir do prprio produto jornalstico, j que os contedos armazenados em BDs so apresentados ao usurio em interfaces hipertextuais. Estas interfaces so apresentadas em forma de narrativa e a potencialidade est justamente na possibilidade de desenvolver diferentes modelos de narrativas a partir das BDs. por isso que a base de dados no em si um novo tipo de narrativa ou uma concorrente da narrativa linear tradicional, mas sim um suporte para o desenvolvimento de diferentes modelos de narrativa multimdia (MACHADO, 2006, p. 24).

35 No jornalismo digital, a tecnologia da base de dados oferece alguns recursos que, combinados, enriquecem as formas de se organizar, gerenciar e apresentar as informaes. Segundo Barbosa, no jornalismo, as BDs:[...] desempenham um conjunto de funes percebidas tanto quanto gesto interna dos produtos, quanto aos processos de apurao e contextualizao, estruturao das informaes, composio das peas informativas, assim como recuperao das informaes e apresentao dos contedos (BARBOSA, 2007, p. 27).

Para que as funes citadas possam ser aplicadas aos produtos jornalsticos, necessrio que os contedos de tais produtos sejam formatados e inseridos nas BDs de forma prtica, gil e acessvel ao jornalista, j que nem sempre esses profissionais apresentam conhecimentos tcnicos apurados de informtica. Para a publicao de contedos formatados lgica das BDs, utilizam-se sistemas de publicao que so ferramentas ou sistemas que facilitam a incluso de informaes em produtos ou servios internet com vistas a deixar o contedo na pgina ou no mecanismo para ser acessado a posteriori (Schwingel, 2008, p. 5). Estes sistemas de publicao so constitudos basicamente por formulrios digitais que permitem a insero de dados textuais e multimdia em uma base de dados. Geralmente, os sistemas exigem uma identificao, com senha do usurio que publica os dados, e permitem o acesso de mltiplos usurios que podem portar permisso para a edio de um mesmo contedo, resultando em sistemas de produo colaborativa. As ferramentas de publicao, alm de alimentarem as BDs em uma estrutura apropriada, passaram a ter a capacidade de gerenciar os contedos armazenados, tanto de forma manual, atravs da edio dos contedos pelos jornalistas, como de forma automtica, ao realizarem operaes massivas ou especializadas sem a interveno humana, como no caso de se reordenar ou filtrar milhares de registros armazenados, ou de se inter-relacionar dados diferentes a fim de se obter novos dados. Esta ferramenta de publicao mais complexa foi denominada de Content Management Systems (CMS) ou simplesmente Sistemas Gerenciadores de Contedo (SGC) que, alm da publicao, edio e automatizao de operaes, tambm oferecem ferramentas para seleo, aprovao e edio dos contedos (SCHWINGEL, 2009), aproximando ainda mais essa ferramenta dos processos produtivos jornalsticos. Schwingel esclarece que um sistema publicador para jornalismo digital mais complexo que as ferramentas de publicao utilizadas em blogs, pois visam incorporar efetivamente as caractersticas do Jornalismo Digital tanto na concepo do site (na

36 arquitetura da informao do produto) quanto na estrutura da notcia (na arquitetura da informao de cada matria) (SCHWINGEL, 2004, p. 5). Portanto, os possveis novos modelos de narrativas na web no dependem apenas da estrutura das BDs, mas tambm dos CMS, j que so eles que determinam a entrada e o gerenciamento dos contedos nas BDs. Para Machado,[...] mais do que definir o sistema de gesto de contedos como requisito tecnolgico essencial para a composio de narrativas multimdia em Bases de Dados, existe a necessidade de perceber que, no caso jornalstico, este sistema deve apresentar determinadas caractersticas particulares. A diversidade de etapas do processo de produo de contedos jornalsticos apurao, composio, circulao demanda a existncia de um sistema complexo de produo e gesto, que seja capaz de incluir subsistemas especficos (MACHADO, 2006, p. 62).

Os CMS no so apenas ferramentas de entrada e gerenciamento de contedos; os CMS so, geralmente, plataformas que englobam toda a estrutura do site (desde a entrada dos dados at a apresentao da interface) e podem realizar operaes automatizadas de seleo, filtro e categorizao dos dados armazenados para apresent-los ao usurio. Alm da automatizao na apresentao, alguns CMS mais complexos tambm podem automatizar a insero de dados nas BDs, como no caso de sites que automaticamente armazenam o nmero de vezes que uma notcia foi acessada, compartilhada ou avaliada pelos usurios. 1.2.4 JDBD: paradigma para a quarta gerao do jornalismo digital Ao associarmos os produtos jornalsticos da terceira gerao com a emerso de diversas tecnologias e prticas sociais na web em um contexto da esttica base de dados, podemos apontar para indcios de uma nova gerao de produtos jornalsticos, em que os jornalistas no apenas inserem as caractersticas do jornalismo digital em seus produtos, mas tambm experimentam novas narrativas e diferentes suportes alm da web. Barbosa cita diversos destes indcios que caracterizam um movimento para a quarta gerao:O cenrio no qual emerge a quarta gerao do ciberjornalismo marcado pela consolidao das bases de dados como estruturantes da atividade jornalstica e como agentes singulares no processo de convergncia jornalstica; equipes mais especializadas; desenvolvimento de sistemas de gesto de contedos (SGC) mais complexos e baseados preponderantemente em softwares e linguagens de programao com padro open source, formato XML (eXtensible Markup Language), algoritmos; acesso expandido por meio de conexes banda larga; proliferao de plataformas mveis; consolidao do uso de blogs; ampla adoo de recursos da Web 2.0; incorporao de sistemas que habilitam a participao efetiva do usurio na produo de peas informativas; produtos diferenciados criados e

37mantidos de modo automatizado; sites dinmicos; narrativas multimdia; utilizao de recursos como RSS (Really Simple Syndication) para recolher, difundir e compartilhar contedos; aplicao da tcnica do tagging na documentao e na publicao das informaes; uso crescente de aplicaes mash-ups; do conceito de geolocalizao de notcias ou geocoding news; uso do podcasting para distribuio de contedos em udio; ampla adoo do vdeo em streaming; novos elementos conceituais para a organizao da informao; maior integrao do material de arquivo na oferta informativa; produtos experimentais que incorporam o conceito de web semntica; emprego de metadados e data mining para categorizao e extrao de conhecimento; aplicao de novas tcnicas e mtodos para gerar visualizaes diferenciadas para os contedos jornalsticos que auxiliam a sobrepujar a metfora do impresso (broadsheet metaphor) como padro (BARBOSA, 2008a, p. 9).

Como observado acima, os produtos jornalsticos passam a incorporar novas tcnicas em suas fases de apurao, composio e circulao, que potencializam as caractersticas do jornalismo digital de terceira gerao tais como a interatividade (ex.: incorporao de sistemas que habilitam a participao efetiva do usurio na produo de peas informativas), a multimidialidade (ex.: uso do podcasting para distribuio de contedos em udio; ampla adoo do vdeo em streaming;), customizao (ex.: conceito de geolocalizao de notcias ou geocoding news), atualizao contnua (ex.: utilizao de recursos como RSS para recolher, difundir e compartilhar contedos), hipertextualidade (ex.: aplicao de novas tcnicas e mtodos para gerar visualizaes diferenciadas para os contedos jornalsticos) e memria (pelo uso intensivo do prprio banco de dados). Barbosa (2007) sugere que nessa transio entre a terceira e a quarta gerao, desponta um paradigma que passa a definir as caractersticas dos produtos jornalsticos da quarta gerao. A esse paradigma, a autora denominou Jornalismo Digital em Base de Dados (JDBD), que, em suas palavras, :[...] o modelo que tem as bases de dados como definidoras da estrutura e organizao, bem como da apresentao dos contedos de natureza jornalstica, de acordo com funcionalidades e categorias especficas, que vo permitir a criao, a manuteno, a atualizao, a disponibilizao e a circulao de produtos jornalsticos digitais dinmicos (BARBOSA, 2007, p. 218).

As funcionalidades citadas pela autora em sua conceituao de JDBD foram identificadas atravs da leitura de outros autores que estudam o tema. No total, Barbosa elencou 18 funcionalidades das BDs no jornalismo digital, que so: Indexar e classificar as peas informativas e os objetos multimdia; Integrar os processos de apurao, composio e edio dos contedos; Conformar padres novos para a construo das peas informativas; Agilizar a produo de contedos, em particular os de tipo multimdia; Propiciar categorias diferenciadas para a classificao externa dos contedos;

38 Estocar o material produzido e preservar os arquivos (memria), assegurando o processo de recuperao das informaes; Permitir usos e concepes diferenciadas para o material de arquivo; Garantir a flexibilidade combinatria e o relacionamento entre os contedos; Gerar resumos de notcias estruturados e/ou matrias de modo automatizado; Armazenar anotaes semnticas sobre os contedos inseridos; Habilitar o uso de metadados para anlise de informaes e extrao de conhecimento, seja por meio de tcnicas estatsticas ou mtodos de visualizao e explorao, como o data mining; Ordenar e qualificar os colaboradores e reprteres cidados; Orientar e apoiar o processo de apurao, coleta e contextualizao dos contedos; Regular o sistema de categorizao de fontes jornalsticas; Sistematizar a identificao dos profissionais da redao; Cartografar o perfil dos usurios; Transmitir e gerar informaes para dispositivos mveis (celulares, computadores de mo, iPods, entre outros); Implementar publicidade dirigida (BARBOSA, 2007, p. 220).

As funcionalidades citadas no so regras: so possibilidades. Nem sempre os produtos jornalsticos em BDs exploram tais funcionalidades, mas possvel perceber que eles compartilham algumas caractersticas que os definem. Em uma investigao (doutoral), Barbosa (2007) analisou diversos destes produtos e elencou sete categorias que demarcam e complementam as particularidades do JDBD. So elas: dinamicidade, automatizao, interrelacionamento/hiperlinkagem, flexibilidade, densidade informativa, diversidade temtica e visualizao. A seguir, apresentamos uma breve explanao sobre cada uma delas: a) dinamicidade: a caracterstica bsica das BDs de dinamizar os contedos apresentados em produtos da web. Ao contrrio do contedo esttico dos sites produzidos apenas em HTML, os contedos oriundos das BDs so dinmicos porque podem mudar seu estado sem a interveno direta de um programador no cdigo-fonte do site em que tal contedo apresentado. a dinamicidade que possibilita a caracterstica da automatizao. Ela tambm vai permitir a legitimao das outras categorias; b) automatizao: ocorre quando os dados so manipulados de forma automtica pela mquina, ou seja, quando no h a necessidade da interveno humana direta para que ocorra uma mudana de estado. H trs tipos bsicos de automatizao: a parcial (aplicada apenas a algumas etapas do processo de produo jornalstica), a procedimental (quando mais etapas do processo jornalstico ocorrem de forma automatizada) e a total (quando o produto jornalstico funciona de forma totalmente automatizada). A automatizao permite que os jornalistas poupem tempo em atividades repetitivas e se dediquem produo intelectual e analtica; c) flexibilidade: a tecnologia das BDs traz certas facilidades produo jornalstica, pois assegura maior agilidade, qualidade e flexibilidade produo. Com elas, os sistemas de

39 apurao se tornam menos hierarquizados, os contedos so mais facilmente recuperados e o trabalho dos jornalistas se torna mais autnomo e descentralizado, j que podem produzir e publicar de qualquer lugar com acesso rede; d) inter-relacionamento/Hiperlinkagem: considerado pela autora como um dos grandes potenciais das BDs, a capacidade de identificar padres combinatrios e interrelacionamentos diversos entre as informaes (BARBOSA, 2007, p. 238). A tecnologia tem o poder de vasculhar rapidamente grandes quantidades de dados e identificar quais deles podem ser inter-relacionados, de acordo com o contexto; e) densidade informativa: a quantidade de informaes presente em um contedo. Geralmente, uma notcia inicialmente apresentada com uma baixa densidade, mas com o decorrer do tempo a densidade elevada com a insero de novas informaes, na medida em que a notcia complementada, alterada, corrigida, contextualizada ou aprofundada. Essa caracterstica baseada no conceito de resoluo semntica, apresentado por Fidalgo (2004), que usa como metfora o conceito de resoluo j utilizado para se referir a imagens digitais formadas por mais pixels por polegada (maior resoluo) ou menos pixels por polegada (menor resoluo). Um produto jornalstico que obtm dados de diversas fontes ter uma densidade informativa maior; f) diversidade temtica: tambm relacionada ao conceito de resoluo semntica, a categoria representa a diversidade de tematizaes alm das mais comuns (como poltica, economia, esportes, cultura, cincia, sade e tecnologia); g) visualizao: so as diferentes maneiras de se representar na tela as informaes jornalsticas armazenadas nas BDs. Nesta categoria, deve-se considerar as noes de metadados, de data mining e da tree map, esta a responsvel pela gerao de visualizaes tpicas da esttica de base de dados, como o Squarified, um tipo de interface que apresenta manchetes em retngulos com dimenses que se alteram de acordo com a popularidade das notcias (ver exemplo na Figura 4);

40

Figura 4 Tela do site OurSignal, que rene publicaes de diversos sites e os apresenta em retngulos20

Um ano aps a publicao da pesquisa, a autora apontou mais quatro funcionalidades das BDs no jornalismo digital: Sustentar a produo e a distribuio dos contedos; Gerenciar o fluxo de informao e o conhecimento nas redaes; Integrar distintas plataformas; Suportar aes de interao que envolvam usurios e profissionais atravs do contedo informativo e de entretimento (reportagens investigativas associadas a informaes de servio, ou at mesmo vinculados a algum game, por exemplo) (BARBOSA, 2008a, p. 12).

Da mesma maneira que ocorreu com as funcionalidades, Barbosa integrou uma nova categoria em pesquisa posterior: h) convergncia: tomar as bases de dados como um agente central no processo de convergncia. A este processo, Barbosa deixa claro que muito mais do que apenas a unio de diversos formatos de mdia em um nico produto. A convergncia ocorre nos processos de produo e de distribuio, nas plataform