reccloud: um modelo de recomendação para sistemas de armazenamento em nuvem

43
RecCloud: UM MODELO DE RECOMENDAÇÃO PARA SISTEMAS DE ARMAZENAMENTO EM NUVEM Ricardo Batista Rodrigues Orientador: Vinicius C. Garcia Co-orientador: Frederico A. Durão Recife, 27 de Fevereiro de 2014

Upload: vinicius-cardoso-garcia

Post on 25-Nov-2015

40 views

Category:

Documents


2 download

DESCRIPTION

Trabalho apresentado ao Programa de Pós-graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.O desenvolvimento tecnológico vivenciado nos últimos anos, proporcionou o crescimento do universo digital de forma exponencial. Este crescimento gerou um grande volume dados e segundo o relatório publicado pela EMC Corporation1 em 2005, a previsão é que em 2015 chegue a quase 8 zettabytes. A filtragem de conteúdo em meio a essa imensidão de dados torna-se cada vez mais complexa.O armazenamento em nuvem é apontado por Zeng et al. em 2009 [43] como uma das possíveis soluções para lidar com o problema de armazenamento para a imensidão de dados gerados a cada dia. Grande parte dos sistemas de armazenamento em nuvem existentes não oferecem ferramentas que permitam que o usuário faça a filtragem de conteúdo de forma simples como por exemplo, levando em consideração o conteúdo dos arquivos, a relevância dos arquivos na rede ou fatores que proporcionem a melhor utilização dos recursos da nuvem, por exemplo, a disponibilidade. Este cenário torna cada vez mais complexa a tarefa de filtrar conteúdo relevante em meio a imensidão de dados disponíveis na nuvem. Diante deste contexto, sistemas de recomendação (SR) se tornam uma alternativa para auxiliar os usuários na tomada de decisão por qual arquivo escolher e a filtrar informações relevantes de acordo com suas preferências.Nesta pesquisa, propomos um modelo de recomendação baseado em características da nuvem, associadas à técnica de recomendação baseada em conteúdo. Com uma aplicabilidade prática para ambientes de armazenamento de dados na nuvem, que proporcionem a melhor utilização dos recursos da nuvem e atenda as preferências dos usuários.Palavras-chave: Sistema de recomendação, modelo de recomendação, computação em nuvem, sistema de armazenamento em nuvem.

TRANSCRIPT

  • RecCloud: UM MODELO DE

    RECOMENDAO PARA SISTEMAS

    DE ARMAZENAMENTO EM NUVEM

    Ricardo Batista Rodrigues Orientador: Vinicius C. Garcia

    Co-orientador: Frederico A. Duro

    Recife, 27 de Fevereiro de 2014

  • Agenda

    Conceitos Bsicos

    Motivao

    Caracterizao do Problema

    Trabalhos Relacionados

    RecCloud

    Avaliao

    Resultados

    Concluses

    Trabalhos Futuros

    2

  • Conceitos Bsicos

    Computao em Nuvem

    Conjunto de recursos computacionais virtualizados (Hardware e software), oferecidos sob demanda (Vaquero et al. 2009).

    (Vaqueiro et al. 2009)

    3

  • Conceitos Bsicos

    Sistemas de Armazenamento de Dados em Nuvem

    Prov recursos e servios de armazenamento baseado em servidores remotos, sob demanda (Zeng et al.

    2009).

    Caractersticas bsicas:

    Recursos infinitos

    Baixo custo

    Mltiplas copias dos dados armazenados

    Alta disponibilidade, escalabilidade e usabilidade.

    Desafios

    Segurana

    Filtragem de contedo

    Disponibilidade

    4

  • Conceitos Bsicos

    Sistemas de Recomendao

    So softwares que fornecem sugestes de itens uteis ao

    usurio (Ricci et al. 2011).

    (Souza, 2012)

    5

  • Conceitos Bsicos

    Sistemas de Recomendao Baseados em

    Contedo

    Similaridade entre itens

    A quantidade de usurios no sistemas no interfere

    Se baseia no histrico do usurio

    Precisa de itens bem descritos

    Recomenda sempre itens muito parecidos

    Sistemas de Recomendao por Filtragem

    Colaborativa

    Similaridade entre os usurios

    Poucos usurios

    Sistemas de Recomendao Hbridos

    6

  • Caracterizao do Problema

    Tempo gasto na filtragem de contedo.

    Utilizao dos recursos em nuvem.

    (Zamora, 2011)

    7

  • Motivao

    (Gantz and Reinsel, 2011)

    Previso do crescimento no volume de dado digitais.

    Relatrio publicado pela EMC Corporation em 2005.

    8

  • Objetivo Geral

    Propor um modelo de recomendao de arquivos

    para sistemas de armazenamento em nuvem,

    utilizando caractersticas da nuvem associadas a

    tcnica de recomendao baseada em contedo.

    (Souza, 2012)

    9

  • Trabalhos Relacionados

    Lee et al. (2010)

    Um sistema de recomendao de canais televiso

    digital (DTV) em um ambiente em nuvem

    Propem a anlise, a utilizao dos padres de

    visualizaes do usurio no ambiente para

    personalizar a recomendao de canais

    Utilizado como referncia

    Disponibilidade e a conexo do usurio

    10

  • Trabalhos Relacionados

    Lai et al. (2011)

    Um sistema de recomendao de programas de

    televiso (TV) baseado em computao em nuvem e

    um framework map-reduce

    Determina os pesos de cada canal de acordo com o

    tempo em que o usurio utilizou.

    Recomendao efetuada de acordo com a

    similaridade de grupos de usurios

    A relevncia de um arquivo atribuda de acordo com

    o tempo de acesso.

    11

  • RecCloud

    Um modelo de recomendao para sistemas de

    armazenamento em nuvem

    Caractersticas da nuvem

    Tcnica de recomendao baseada em contedo

    Fatores:

    1. Similaridade

    2. Disponibilidade

    3. Taxa de Download

    4. Tamanho do Arquivo

    5. Popularidade do Arquivo

    12

  • RecCloud

    Fator Similaridade

    Similaridade entre o arquivo que representa as

    preferncias do usurios com os arquivos candidatos

    a recomendao.

    Tcnica de similaridade do Cosseno (Cheng et al.

    2003; Lee at al. 2010; Yu and Zhou 2004).

    13

  • RecCloud

    Fator Disponibilidade

    Quantidade de horas em que um arquivo esta

    disponvel na nuvem

    Ex: Arquivo A = 12 horas x Arquivo B = 10 horas

    O Arquivo A ser mais bem ranqueado que o Arquivo

    B

    14

  • RecCloud

    Fator Taxa de Download

    a taxa disponvel para a realizao do download.

    Objetivo: Reduzir o tempo gasto no download dos

    arquivos recomendados.

    0 a 3 Megabits (Akamai 2013).

    Ex: Arquivo A = 1 Gb x Arquivo B = 10 Gb, mesma

    taxa de download.

    O Arquivo A ser mais bem ranqueado que o Arquivo

    B.

    15

  • RecCloud

    Fator Tamanho do Arquivo

    o tamanho do arquivo candidato a recomendao

    Valor mximo determinado pelo sistema (Gb)

    Objetivo: amenizar o tempo gasto no download

    Ex: Arquivo A = 1 Gb x Arquivo B = 10 Gb, mesma

    taxa de download

    O Arquivo A ser mais bem ranqueado que o Arquivo

    B

    16

  • RecCloud

    Fator Popularidade do Arquivo

    a quantidade de downloads realizados de um

    arquivo

    Popularidade X Similaridade

    Ex: Arquivo A = 5 downloads x Arquivo B = 10

    downloads

    O Arquivo B ser mais bem ranqueado que o Arquivo

    A

    17

  • RecCloud

    Pesos dos Fatores

    Fator Peso

    Similaridade 4

    Disponibilidade 2

    Taxa de Download 2

    Tamanho do Arquivo 1

    Popularidade do Arquivo 1

    18

  • RecCloud

    Processo de Recomendao

    19

  • RecCloud

    Clculo

    20

  • Avaliao

    Coleo de dados

    Foram utilizados artigos acadmicos indexados no

    engenho de busca ACM Digital Library.

    Publicaes da ACM Conference on

    Recommendation System RecSys (2012 e 2013).

    Download de 156 artigos (.pdf)

    10 artigos sobre o trabalho.

    166 artigos foram salvos em um conta de usurio no

    Ustore.

    O backup foi realizado em dois clientes Ustore.

    21

  • Avaliao

    Julgamento de relevncia

    Maior quantidade de downloads realizados no

    engenho de busca ACM Digital Library

    Artigos similares a proposta e com mais de 100

    downloads

    20% do total de artigos utilizados (32 artigos)

    Anexo A.

    22

  • Mtricas de avaliao

    Mtrica Definio

    Preciso

    taxa de itens relevantes

    recomendados no resultado em

    relao a quantidade de itens

    recomendados

    Recall

    a taxa de itens relevantes

    recomendados em relao a

    quantidade total de itens

    relevantes

    F-measure a mdia ponderada da preciso

    e recall

    23

  • Mtricas de avaliao

    Mtrica Definio

    Tempo Gasto no Download Tempo gasto no download de

    arquivos recomendados

    Contedo Recomendado

    Avaliar se o contedo

    recomendado atende as

    preferncia do alvo da

    recomendao

    24

  • Avaliao

    USTORE

    Ustore Consiste em uma soluo p2p para o

    armazenamento de arquivos de forma distribuda.

    O Ustore armazena uma enorme variedade de

    arquivos de diversos formatos e tamanhos (.doc, .pdf,

    .txt, .jpg e etc.)

    25

  • Avaliao

    Sistema de recomendao do Ustore

    Prottipo implementado:

    Fator Similaridade

    Tcnica de similaridade do cosseno.

    Fator Disponibilidade

    Medido em horas, foi utilizada a mdia de disponibilidade de cada usurio.

    Fator Taxa de Download

    Foi utilizada a taxa de download da rede no momento da realizao dos experimentos.

    26

  • Avaliao

    Prottipo implementado:

    Fator Tamanho do Arquivo

    O tamanho do arquivo disponibilizado em bytes na base do Ustore, foram convertidos para GigaBytes

    O tamanho do arquivo mximo foi definido em 10 GigaBytes

    Fator Popularidade do Arquivo

    Este fator teve seus valores atribudos aleatoriamente

    27

  • Avaliao

    Ambiente

    Resultado limitado a 10 recomendaes para cada

    solicitao.

    Foram realizadas 10 solicitaes de recomendaes.

    Foram geradas 100 recomendaes.

    As preferncias do usurio foram representadas por

    10 artigos escritos sobre a pesquisa.

    Cada recomendao foi avaliada pelas mtricas

    apresentas.

    28

  • Cenrios de avaliao

    Cenrio I

    Objetivo de avaliar o desempenho do modelo.

    Preciso, recall e F-measure.

    Cenrio II

    Objetivo de avaliar o tempo gasto no download das recomendaes.

    RecCloud.

    Tcnica baseada em contedo.

    Cenrio III

    Avaliar o contedo recomendado.

    29

  • Resultados Cenrio I

    Preciso de 0 a 0.5

    Melhor preciso: 0.5

    Preciso: 0.27

    -13%

    30

  • Resultados Cenrio I

    Recall de 0 a 0.156

    Recall: 0.84

    -1%

    31

  • Resultados Cenrio I

    F-Measure: 0.40

    -10%

    32

  • Resultados Cenrio II

    Recomendaes: 10x5 = 50

    RecCloud: O tempo mdio foi de 959,56 ms, variando de 410 ms

    a 2.203 ms.

    CB: O tempo mdio foi de 1.166,42 ms, variando de 129 ms a

    2.717 ms.

    33

  • Resultados Cenrio II

    A reduo mdia foi de 207,06 milissegundos 17,8%.

    34

  • Resultados Cenrio III

    Foram avaliadas 100 (cem) recomendaes.

    As recomendaes foram avaliadas por um nico

    usurio (Like/Dislike).

    35

  • Resultados

    Possveis ameaas a validao:

    Conjunto de dados utilizado

    Ambiente controlado

    Mtricas de avaliao

    36

  • Concluses

    Os resultados obtidos foram prximos aos resultados

    utilizados como referncia de validao.

    Os resultados mostraram que o contedo

    recomendado pelo modelo atender as preferncias do

    usurio.

    37

  • Concluses

    Os resultados mostraram que o modelo proposto

    conseguiu amenizar o tempo gasto no download dos

    arquivos recomendados em relao

    O modelo proposto pode ser aplicado a diversos

    sistemas de armazenamento em nuvem

    38

  • Principais Contribuies

    Um estudo sobre modelos de recomendao

    baseados em nuvem.

    Um modelo de recomendao para sistemas de

    armazenamento em nuvem, composto por

    caractersticas da nuvem.

    A avaliao da proposta em sistemas de

    armazenamento em nuvem real.

    39

  • Concluses

    1. A Cloud-based Recommendation System. IADIS International

    Conference WWW-INTERNET (ICWI), Out., 2013, Fort Worth, Texas.

    2. RecCloud: Um Sistema de Recomendao Baseado em Nuvem.

    Workshop de Teses e Dissertaes do Congresso Brasileiro de Software

    (WTDSoft). Set., 2013, Braslia, Distrito Federal, Brasil.

    3. Um Sistema de Recomendao Baseado em Nuvem. III Escola Regional

    de Informtica de Pernambuco (ERIPE). Nov., 2013, Garanhuns,

    Pernambuco, Brasil.

    4. A Cloud-based Recommendation Model. 7th Euro American Association

    on Telematics and Information Systems, 2014, Valparaso, Chile.

    5. RecCloud: A Recommendation Model for Cloud Storage Systems. 10th

    International Conference on Web Information Systems and

    Technologies, 2014, Barcelona, Espanha.

    40

  • Trabalhos Futuros

    Realizar novos experimentos com usurios reais, afim

    de, avaliar o contedo recomendado pelo modelo

    proposto.

    Aplicar outras tcnicas de avaliao de sistemas de

    recomendao ao modelo.

    Realizar os experimentos com pesos diferentes para

    cada fator do modelo proposto.

    41

  • Trabalhos Futuros

    Expanso dos fatores utilizados.

    Utilizar a tcnica de recomendao por filtragem

    colaborativa.

    Propor um modelo de recomendao hbrido.

    42

  • RecCloud: Um Modelo de

    Recomendao Para Sistemas de

    Armazenamento em Nuvem

    Ricardo Batista Rodrigues

    [email protected]

    Recife, 27 de Fevereiro de 2014