ricardo maekawa - logs de busca - proposta de projeto de mestrado eca/usp

15
1 Ricardo Nogueira Maekawa logs de busca 2009 Proposta de projeto apresentada ao Programa de Pós-Graduação em Ciência da Informação, Área de Concentração Cultura e Informação, Linha de Pesquisa Gestão de Dispositivos de Informação, da Escola de Comunicação e Artes da Universidade de São Paulo, como exigência parcial do Título de Mestre em Ciência da Informação sob orientação da Profª. Dr ª. Sueli Mara S. P. Ferreira.

Upload: ricardo-maeka

Post on 11-Mar-2016

234 views

Category:

Documents


15 download

DESCRIPTION

Proposta de projeto de mestrado na ECA/USP. Infelizmente, não consegui desenvolver o projeto. Mas acho que só a proposta já é algo interessante e pode interessar a alguém.

TRANSCRIPT

Page 1: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

1

Ricardo Nogueira Maekawa

logs de busca

2009

Proposta de projeto apresentada ao Programa de Pós-Graduação em Ciência da Informação, Área de Concentração Cultura e Informação, Linha de Pesquisa Gestão de Dispositivos de Informação, da Escola de Comunicação e Artes da Universidade de São Paulo, como exigência parcial do Título de Mestre em Ciência da Informação sob orientação da Profª. Dr ª. Sueli Mara S. P. Ferreira.

Page 2: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

2

Resumo

O fenômeno da adoção em massa do uso dos sistemas de busca para os mais variados fins em todo

o mundo, fez emergir um conjunto de dados sobre os hábitos das pessoas quando navegam na

internet ou em qualquer interface digital provida de uma caixa de busca: os logs de busca. Os logs de

busca fazem parte do rastro digital deixado pelas pessoas nessa vida.

O conhecimento a respeito do fenômeno dos logs de busca cresce exponencialmente, mas ainda é

pequeno perto da grandeza do tema, que lida com algo que irradia impactos em termos culturais,

sociais e econômicos em nível global. Nada mais justo. Afinal, a própria existência dos logs de busca

é igualmente recente.

Um log de busca, é composto basicamente de duas informações: (1) o termo que a pessoa escreve

quando faz uma busca e; (2) data e hora. Sistemas avançados de busca na web, assim como certos

websites, costumam coletar outros dados junto com os logs, como número internet protocol(ip) e sua

região(geo-referenciamento).

Os objetivos principais desse estudo são: (a) aumentar o conhecimento teórico e prático a respeito

dos logs de busca, (b) identificar formas de ver os logs de busca e os tipos de relação que podem

haver entre essas formas, (c) checar se esse tipo de abordagem é capaz de oferecer informações

que permitam aprimorar um dado dispositivo digital, (d) propor uma metodologia reutilizável, open-

source, baseada em coleta, seleção, organização, relacionamento, acesso e leitura de logs de busca,

a partir do levantamento de possibilidades de sistemas de classificação capazes de servirem como

estruturas basilares para a transformação das informações obtidas a partir da coleta de logs de

busca, em conhecimento com aplicação prática para o aperfeiçoamento de um dado dispositivo

provido de interface digital.

Espera-se que o projeto ajude a aumentar o nível da base de conhecimento que temos hoje a

respeito dos logs de busca e que, dessa forma, possa contribuir com mais um fator ligado à melhora

no design de um sistema de informação, uma interface humano-computador, ou no sentido de

melhorar o entendimento sobre tipos de perfis demográficos e de tipos de necessidades e casos de

uso que podem ocorrer em ambientes digitais.

Palavras-chave: logs-de-busca, formação-de-clusters, sistemas-de-categorização, metodologia, open-

source.

Page 3: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

3

Introdução O advento da adoção em massa dos sistemas de busca em toda web, abriu precedente para

intensificação de um campo de estudos sobre logs de busca, incipiente até os anos 1990. Esse

crescente interesse tem explicação: atualmente, os sistemas de busca na web fazem parte do dia a

dia de bilhões de pessoas em todo o mundo, e continua sendo impulsionado por uma indústria de

vinte bilhões de dólares, alimentada constantemente pela publicidade na web ( Broder et. all). Dessa

forma, ao mesmo tempo que esse de campo de conhecimento é capaz mostrar dados relativos à

hábitos, necessidades, perfis e contexto de uso de grande volume de pessoas, fornece também

insumos para o aprimoramento do design de sistemas de informação e para o desenvolvimento de

interfaces humano-computador.

O objetivo desse estudo é propor uma metodologia reutilizável, baseada em coleta, seleção,

organização (sistemas de classificação), relacionamento, acesso e leitura de logs de busca, capaz de

mostrar quais classes de coisas (o que), de que forma (como) em que contexto (quando e onde) e

com que intuito (para que), grupos pertencentes aos mais variados tipos de agrupamentos

demográficos costumam realizar buscas na web.

Os objetos de estudo que devem dar suporte à comprovação ou não-comprovação das hipóteses

apresentadas, vão ser os logs de sites de busca na web ( Google ), assim como de certos websites

(Universidade de São Paulo, Ed. Abril), que possuem grande amplitude em relação à quantidade de

nichos e segmentos de usuários.

Não é o intuito desse estudo apresentar essencialmente quais categorias de coisas, e quais coisas

são buscadas na web e nos sites em língua portuguesa, por segmento, perfil-demográfico e época do

ano; mas sim uma ou mais metodologias, baseadas na submissão de uma determinada base de logs

de busca à séries de camadas de sistemas de categorização, capazes de transformar a informação

contida nos logs de busca nesse tipo de conhecimento.

Em termos práticos, a metodologia deve permitir a 1) orientação para modelagem de mapas

preditivos de termos de busca a partir de qualquer tipo de base de logs de busca, relacionados a 2)

segmentações culturais e demográficas, além da 3) identificação do nível de qualidade dos

“nós”(Barabasi, 2003) formados por uma determinada estrutura de navegação no sentido de

conseguir estabelecer um bom diálogo com as máquinas de busca, de acordo com seu objetivo

semântico, 4) insights para o aprimoramento do design de sistemas de informação e para o

Page 4: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

4

desenvolvimento de interfaces humano-computador. e 5) mostrar as maneiras com que os logs de

busca podem ser vistos.

Objeto

O estudo analítico dos logs de busca proporcionam “insights” que vão muito além do processo de

busca por informações por parte dos mais diversos perfis demográficos. Esse tipo de entendimento

pode ajudar no design de sistemas de informação e no desenvolvimento de interfaces humano-

computador. O interesse por esse tema, vem aumentando significativamente nos últimos anos, por

uma série de motivos, todos relacionados à adoção em massa desse tipo de sistema na Internet.

A pesquisa por “search logs” e/ou “logs de busca” na ferramenta Google Scholar ( especializada em

artigos acadêmicos ) em setembro de 2009, retornou 810.000 resultados. Esse número deve

aumentar nos próximos anos, uma vez que não é mais novidade o fato de que logs de busca

possuem capacidade de revelar muita coisa sobre os hábitos e necessidades humanas.

Ao mesmo tempo, esse número de resultados mostra que é muito difícil e até mesmo arriscado, ser

categórico ao afirmar que uma determinada forma de tratar logs de busca ainda não foi realizada.

Os artigos mais proeminentes, no entanto, como já foi dito, costumam concentrar suas atenções para

bancos de dados de logs de sites específicos e suas metodologias possuem baixo grau de

reutilização, por conta das particularidades de cada banco de logs , que acabam sendo tratados de

forma reducionista, com sistemas de classificação que só servem para o caso estudado. Um outro

ponto de observação, é que sistemas gramaticais de classificação, raramente são utilizados como

parte do processo metodológico dos estudos de logs de busca.

No Brasil, as cientistas Rachel Virgínia Aires e Sandra Maria Aluísio, publicaram em 2003 um artigo

intitulado “Como incrementar a qualidade dos resultados das máquinas de busca: da análise de logs à

interação em português”. Os intuitos dessa pesquisa foram 1) avaliar se os usuários expressavam

bem seus objetivos em palavras-chave, 2) dizer como seriam as buscas de cada usuário, caso se

expressassem em linguagem natural e 3) dizer se as consultas em língua natural forneciam

informações que pudessem facilitar a recuperação da informação. Esse artigo utilizou um sistema de

coleta de logs a partir de ambientes controlados, com uma pequena amostragem.

Os resultados dessa pesquisa mostraram-se próximos à questão do intuito por trás das buscas

Page 5: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

5

(Broder, 2000), principalmente quando apresentaram os objetivos de cada log de busca. Dessa

forma, apesar do foco desse estudo ser muito mais voltado para a linguagem natural em si do que

para os objetivos de cada busca, o resultado indireto do estudo trata de ser uma versão nacional dos

intuitos das buscas de Andrei Broder.

Quadro teórico de referência

Segundo a psicóloga norte americana Eleanor Roch, professora de psicologia da Universidade de

Berkeley, especialista em psicologia cognitiva e autora de uma importante teoria a respeito dos

processos cognitivos que envolvem a categorização, a teoria clássica a respeito dos sistemas de

classificação afirma que as pessoas fazem uso dessa propriedade de maneira automática e

inconsciente. Apenas em casos problemáticos, ocorre uma espécie de conscientização da existência

desse atributo do cérebro humano. Normalmente, no entanto, indivíduos categorizam

automaticamente pessoas, animais, objetos feitos ou não pelo homem. Isso, segundo Roch, às vezes

pode levar à crença de que as coisas são categorizadas como elas são, que elas possuem origem

natural, e que as categorias que estão na mente das pessoas, naturalmente atentem à todas as

espécies de coisas que existem no mundo.

Mas uma grande proporção das categorias que possuímos não são categorias de coisas. Tratam-se

de categorias de entidades abstratas. Nós categorizamos eventos, ações, emoções, relações

espaciais, relações sociais, e mais um enorme leque de outras entidades abstratas como governos,

doenças, e entidades presentes em campos científicos e populares, como elétron e frio. Quer dizer,

deve haver alguém capaz de desenvolver uma teoria acurada para todas as nossas categorias,

concretas e abstratas.

Desde o tempo de Aristóteles até o último trabalho de Wittgenstein(Lakoff, 1985), a idéia de categoria

era bem entendida e não-problemática. Eles assumiram as categorias como sendo algo similar à

repositórios abstratos, que podiam englobar ou não determinas coisas, de acordo com suas

propriedades. Assumiram também que coisas poderiam estar na mesma categoria se e apenas se

tiverem certas propriedades em comum. E as propriedades que essas coisas tem em comum

deveriam servir como base para a definição da categoria.

Page 6: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

6

Essa teoria clássica não foi resultado de estudos empíricos. Ela nunca foi assunto de um grande

debate. Trata-se de uma posição filosófica cuja base é a especulação. Através dos séculos, a

categorização simplesmente foi encarada como algo pertencente ao background das disciplinas

escolares. De fato, até recentemente, a teoria clássica sequer era entendida como sendo uma teoria.

Ela foi ensinada em muitas disciplinas não como sendo uma hipótese empírica mas como algo

inquestionável, definitivamente, uma verdade.

Em muito pouco tempo, tudo isso mudou. A categorização foi movida do background para o centro

devido aos resultados de estudos empíricos de diversas disciplinas. Com a psicologia cognitiva, a

categorização tornou-se um campo maior de estudo, graças ao trabalho pioneiro de Eleanor Rosch,

que fez da categorização, um grande assunto (Lakoff, 1985).

Esse estudo deve considerar alguns pontos das teorias de Eleanor Roch a respeito dos sistemas de

categorias, do ponto de vista cognitivo humano. A maior contribuição para esse trabalho em termos

práticos, é a conclusão resultante de sua teoria dos protótipos, que mostra que as pessoas costumam

abandonar as definições abstratas sobre as coisas, ao passo que se prendem em coisas concretas e

experienciais. Isso deve ter influencias sobre a formação dos logs de busca.

Andrei Broder, o inventor do Alta Vista; um dos primeiros sistemas de busca cujo uso se popularizou

amplamente na internet; foi capaz de demonstrar que as necessidades dos usuários em relação a tais

sistemas vão muito além da recuperação de informação (RI). Broder identificou outros tipos de uso

para ferramentas de busca, como os intuitos transacionais e navegacionais (Broder, 2000). Suas

conclusões, assim como as de praticamente todos os estudos desse gênero, basearam-se na coleta,

classificação e análise dos logs de busca e sua relação com os contextos histórico-culturais e de uso,

presentes no momento de inserção de tais termos de busca. No entanto, a grande diferença entre os

estudos de Broder, em relação à outros estudos, é o alto grau de reutilização de sua metodologia

para todo tipo de base de logs. Não só essa característica do trabalho de Broder, que atualmente

está trabalhando no desenvolvimento de um algoritmo automático para rotulação de logs de busca

usando a própria web como base de conhecimento, mas os resultados de sua pesquisa, vão ser

utilizados de maneira intensiva nesse trabalho.

John Battelle, jornalista e co-fundador da revista norte americana Wired, lançou em 2005 o livro “The

Search: How Google and Its Rivals Rewrote the Rules of Business and Transformed Our Culture”.

Battelle foi um personagem muito ativo no desenvolvimento dos sistemas de busca na web. Em

Page 7: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

7

diversos momentos, seu destino esteve entrelaçado com os principais protagonistas do mercado de

buscas, de engenheiros, idealizadores, pesquisadores e investidores. Battelle cunhou um termo

importante para esse projeto de pesquisa; o de que os logs de busca representam um banco de

dados de intenções das pessoas. Ele buscou apoio em alguns artigos científicos sobre logs de busca,

inclusive os de Andrei Broder, sobre os intuitos que estão por trás das buscas; e de Byrne et al, 1999,

sobre a taxonomia das tarefas que as pessoas podem realizar por intermédio da web ( tasksonomy ).

Ao mesmo tempo, relacionou tudo isso com o retrato histórico do fragmento de tempo que foi e vem

servindo de palco para essa grande mudança que está acontecendo por conta das buscas na pós-

modernidade, em termos culturais, econômicos e históricos. A ampla visão de Battelle sobre os logs

de busca, e o holismo de suas análises é fonte de grande inspiração para esse trabalho.

Nos anos 2002, o Google lançou o Google Zeitgeist – termo de origem alemã, cunhado pelo escritor

romântico Johann Gottfried Herder e outros-, que significa o conjunto do clima intelectual e cultural do

mundo, numa certa época, ou as características genéricas de um determinado período de tempo. Zeit

siginifica tempo, geist significa espírito. Portanto, espírito do tempo.

Por meio do Google Zeitgeist, a gigante de buscas Google passou a mostrar os logs de busca mais

utilizados pelas pessoas nos estados unidos anualmente. Na primeira versão, os logs foram

apresentados em duas grandes categorias, determinadas a) por volume de buscas e b) em termos de

rapidez de crescimento.

A última versão do Google Zeitgeist, o Zeitgeist 2008; estendeu-se para mais de 15 países e

apresentou os logs de busca agrupados em muito mais categorias que a primeira versão. No caso

dos logs brasileiros, por exemplo, além das duas iniciais ( volume de buscas e rapidez de

crescimento ), os logs foram apresentados em mais quatro facetas: a) futebol, b) eleições, c)

celebridades e d) relacionas com o Google.

O Google Zeitgeist, impulsionou o surgimento de uma série de outras ferramentas de tratamento de

logs de busca no Google, como Google Trends, que mostra o comportamento de logs de busca em

termos de volume de buscas por período, país, região e compara com outros logs de busca com

relação à esses mesmos critérios; e o Google Insights, que mostra logs de busca por país, região,

range de tempo e de categoria.

Page 8: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

8

Google Insights: logs de busca agrupados em quase 27 categorias.

Em agosto de 2009, SHIMSHONI et al., do Google Labs Israel, publicaram um paper chamado “On

Predictability os Search Trends”. Esse estudo teve como foco principal identificar qual o grau de

preditividade dos termos de busca, ao longo dos anos; com base na leitura dos logs de busca

disponibilizados pelas ferramentas Google Trends e Google Insights. O objetivo do estudo foi o de

responder essencialmente três questões: 1) Quantos logs de busca podem ser previstos? 2) Existem

categorias de coisas que são mais previsíveis que outras? Como é a distribuição de preditividade

entre essas categorias? 3) Qual o grau de previsibilidade dos logs de busca em cada categoria?

Quais categorias são mais e quais são menos previsíveis? Os resultados da pesquisa de

SHIMSHONI et al., são fortemente voltados para o tratamento dos logs de busca em relação à fatores

temporais com intuito de medição de preditividade de logs de busca, de acordo com certas categorias

cujo processo de escolha e formação foram realizados previamente pelo Google Insights.

Esse estudo levará em conta os resultados e a metodologia para medição de fatores de preditividade

de logs de busca, bem como as categorias do Google Insights , cujo processo de formação devem ser

investigados.

Page 9: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

9

Objetivos

O objetivo geral desse estudo é aumentar o conhecimento teórico e prático a respeito dos logs de

busca.

Em termos específicos, o projeto tem o objetivo de responder as seguintes questões:

a) Identificar formas de ver os logs de busca. Como é possível classificar logs de busca?

b) Identificar os tipos de relação que podem haver entre essas formas.

c) Checar se esse tipo de abordagem é capaz de oferecer informações que permitam aprimorar um

dispositivo digital.

b) Até que ponto essas camadas de classificação são reutilizáveis (servem para n! bancos de logs)?

c) Como essas camadas de classificação podem ser encadeadas, de forma que permitam extrair

conhecimento com aplicações práticas para um dado sistema de informação?

d) Como essas camadas de classificação podem mostrar dados relativos ao perfil demográfico dos

usuários, assim como relativos a aspectos culturais e de necessidades de uso?

e) Esses sistemas classificatórios podem dizer algo com relação à psicologia cognitiva envolvida no

processo de formulação de logs de busca?

O objetivo primordial desse estudo em termos práticos é propor uma metodologia reutilizável, open-

source, baseada em coleta, seleção, organização (sistemas de classificação pré-existente),

relacionamento, acesso e leitura de logs de busca, capaz de mostrar quais classes de coisas (o que),

de que forma (como) em que contexto (quando e onde) e com que intuito(para que), grupos

pertencentes aos mais variados tipos de agrupamentos demográficos costumam realizar buscas na

web. Quer dizer, a aplicação dessa técnica à uma determinada base de dados de logs de busca, deve

permitir reconhecer perfis demográficos, hábitos e necessidades da população responsável por

realizar esses logs.

Do ponto de vista teórico, a idéia é ajudar no desenvolvimento das teorias de classificação pré-

existentes, específicas sobre logs de busca, e as com propósitos mais gerais, que podem ser

aproveitadas de alguma forma para esse fim, como por exemplo, as categorias gramaticais da língua

portuguesa.

Page 10: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

10

Metodologia

A metodologia parte do pressuposto que em um dado sistema de busca, os logs podem variar com

frequência significativa em relação à variável temporal. No entanto, é possível submeter tais logs à

séries de camadas de classificação pré-existentes até que essas categorias passem a apresentar um

baixo grau de variação em relação à todo tipo de variação temporal. Quer dizer, associar os logs de

busca a camadas de classificação deve fazer com que novas relações temporais em relação aos logs

de busca, sejam estabelecidas. O objetivo testar um encadeamento hierárquico entre diferentes

esquemas de classificação, baseado em frequência de variação.

Os logs de busca podem ser classificados de muitas formas:

a) com relação à seu teor gramatical

b) com relação ao número de termos

c) com relação ao intuito ( Broder, 1997 )

d) com relação à variáveis temporais

e) com relação à variáveis climáticas ( estações do ano )

f) com relação à outros sistemas de classificação para o conhecimento humano,

desenvolvidos por outros pesquisadores

g) com relação ao seu grau de sazonalidade e previsibilidade ( Shimshoni, Efron,

Matias; 2009 )

Page 11: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

11

Seguem as etapas para a realização do estudo:

1. Definir os objetos de estudo e os períodos de tempo para coleta dos logs de busca.

( pedi permissão aqui na Abril para poder usar os logs de busca dos sites das revistas, o Google Insights é aberto para uso,

apesar de apresentar algumas restrições, pretendo encaminhar também um peddoi de permissão para poder usar os logs de

busca da USP - não sei se eles possuem ferramentas que fazer esse tipo de coleta. É possível rapidamente usar outros

objetos de estudo, desde que possuam logs de busca )

2. Coletar os logs de busca e armazená-los em um banco de dados relacional ou planilha

3. Definir quais sistemas de categorias devem compor as camadas de classificação relacionadas aos

logs de busca.

Ex:

Camada 1: classifica logs de busca de acordo com o intuito das buscas (navegacional, informacional,

transacional)

Camada 2(apenas para as informacionais): classifica termos com relação à uma forma de

classificação, cujo conceito foi criado e desenvolvido pelo filósofo grego Platão, perto dos anos 350

a.c. O pensamento Platônico classificava as coisas como concretas e abstratas.

Camada 3(apenas para as informacionais): classifica logs de busca concretos de acordo com seu

teor gramatical. Substantivos concretos e nomes próprios. Fazer o mesmo procedimento para os logs

de busca abstratos.

Camada 4: olha para o conjunto de substantivos concretos, nomes próprios, substantivos abstratos,

intuitos navegacionais e transacionais e se faz a seguinte pergunta: “o que é isto?”. A resposta para

Page 12: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

12

essa pergunta deve apontar a categoria de coisas, no mundo concreto, a qual este log de busca

pertence.

Camada 5: estabelece sistema de classificação

4. Atribuir os sistemas de classificação aos logs de busca utilizando um banco de dados relacional.

5. Utilizar softwares específicos para visualização, relacionamento e extração estatística de dados

como Freemind ( http://freemind.sourceforge.net/wiki/index.php/Main_Page ) e UCINET (

http://www.analytictech.com/products.htm ). Aplicar séries de "views" para os dados, várias formas de

ordenar os logs de busca, com possibilidade de estabelecer relações booleanas entre os itens dos

sistemas de classificação.

6. O objetivo será hierarquizar as camadas de categorias de acordo com seu grau de

variação/freqüência com que ocorre. Categorias mais “amplas” tendem a variar menos que categorias

mais “estreitas”. Deve-se, nesse caso, identificar os padrões de freqüência usando a fórmula de

SHIMSHONI et al., 2009.

7. Com os logs de busca referenciados por sistemas de classificação ordenar e analisar os dados

para descobrir se:

a) existem sistemas de classificação que pode servir a todos os bancos de dados de logs de

busca e em que grau;

b) existem sistemas de classificação que podem servir em menor ou maior grau que outros no

sentido de conseguirem classificar todo tipo de informação de bancos de logs de busca;

c) tais sistemas podem ser encadeados hierarquicamente de modo que possam se

transformar numa metodologia reutilizável e open-source para tratamento de logs de busca para

qualquer caso.

d) caso seja possível encadear os sistemas de classificação de acordo com o grau de variação dos

seus atributos; propor um protocolo de comunicação para os logs de busca que forem submetidos à

essa metodologia.

Page 13: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

13

e) verificar se a interface digital em questão favorece o universo de entidades que é mais buscado

no sistema em questão.

O resultado final vai permitir o desenvolvimento de uma série de análises conclusivas com relação

aos hábitos e necessidades dos usuários junto aos mecanismos de busca. Como uma ferramenta de

busca como o Google é utilizada por quase a totalidade de usuários da Internet no Brasil, tais

análises devem ter reflexos diretos nos hábitos e necessidades de utilização da Internet em territórios

brasileiro. As classes de coisas que são buscadas ajudam a entender as categorias de tarefas

mediadas pela web( Byrne; John; Wehrle; Crow, 1999 ), e que estão alinhadas às necessidades dos

usuários brasileiros.

Considerações finais

O método proposto permitirá inferir informações adicionais aos logs de busca. Com isso, será

possível identificar a formação de padrões com base em mais direções do que as informações nativas

dos logs de busca.

Espera-se que os resultados desse trabalho possam contribuir para um melhor entendimento do

comportamento humano relacionado à utilização da Internet, com especial atenção ao caso brasileiro,

e com relação aos impactos culturais causados pelo uso em massa de ferramentas de busca em

todas as instâncias da web e da computação em termos gerais. Dessa forma, a pesquisa tentará

aproximar ao máximo, leitura de dados, teoria, conclusão e a aplicação prática a respeito dos logs de

busca de maneira geral. A pesquisa deve, além disso, fornecer uma base franquear acesso à outros

pesquisadores interessados nesse tema.

Sumário da pesquisa

1. Resumo.............................................página 02

2. Introdução.........................................página 03

3. Objeto...............................................página 04

4. Quadro teórico e de referência.........página 05

5. Objetivos..........................................página 09

Page 14: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

14

6. Metodologia.....................................página 10

7. Considerações finais.......................página 13

Referências Bibliográficas

BRODER et al. Classifying Search Querys Using the Web as a Source of Knowledge. Yahoo!

Research, Santa Clara, CA, USA, 2007.

SHIMSHONI, Yair; EFRON, Niv; Matias, Yossi. On the Predictability of Search Trends. Google, Israel

Labs, 2009.

AIRES, Rachel V. X.; Aluísio, Sandra M.. Como incrementar a qualidade dos resultados das máquinas

de busca: da análise de logs à interação em português.

LAKOFF, George. Women, Fire and Dangerous Things – What Categories Reveals about the Mind.

University of Chicago Press, 1987.

BRODER, Andrei. A Taxonomy of Web Search. IBM Research; Alta Vista Corporation, 2000.

BYRNE, Michael D.; JOHN, Bonnie E.; WEHRLE, Neil S.; CROW, David C.. The Tangled Web We

Wove: A Tasksonomy of WWW Use. Human Factors in Computing Systems: Proceedings of CHI 99,

pp. 544-551. New York: Addison Wesley.

BATTELLE, John. The Search: How Google and Its Rivals Rewrote the Rules of Business and

Tranformed Our Culture. Portfolio, Penguin Group (USA), Inc. 2005.

DURKHEIM, Emile; MAUSS, Marcel. Primitive Classification. The University of Chicago Press, 1963.

FOUCAULT, Michel. As Palavras e as coisas. Martins Fontes, 2007.

INAN, Hurol. Search Analytics – A Guide to Analyzing and Optimizing Website Search Engines. Hurol

Inan, 2006.

BARABASI, Albert-László. Linked – How Evething Is Connected to Everything Else and What It Means

for Business, Science, and Everyday Life. Penguin Group, 2003.

MAEDA, John. The Laws of Simplicity. Massachusetts Institute of Tecnology, 2006.

Page 15: Ricardo Maekawa - Logs de Busca - Proposta de projeto de mestrado ECA/USP

15

Cronograma das atividades de pesquisa

a) Aprofundamento teórico: 01/2010 até 04/2010

b) Preparação para coleta de dados: 05/2010 até 06/2010

c) Coleta de dados: 05/2010 até 06/2011

d) Análise: 07/2011 até 08/2011

e) Testes: 09/2011 até 10/2011

f) Conclusões: 11/2011 até 12/2011

g) Defesa: 01/2012