modelo bayesiano heterocedástico de fatorização ... · resumen en esta disertación se propone...

76
Modelo Bayesiano Heterocedástico de Fatorização Probabilística de Matrizes Leonara Alves Cesario da Silva Brasil 2020

Upload: others

Post on 26-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Modelo Bayesiano Heterocedástico deFatorização Probabilística de Matrizes

Leonara Alves Cesario da Silva

Brasil2020

Page 2: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Leonara Alves Cesario da Silva

Modelo Bayesiano Heterocedástico de FatorizaçãoProbabilística de Matrizes

Dissertação de Mestrado submetida ao Pro-grama de Pós-Graduação em Estatística doInstituto de Matemática da Universidade Fe-deral do Rio de Janeiro, como parte dos re-quisitos necessários à obtenção do grau deMestre em Estatística.

Universidade Federal de Rio de Janeiro

Instituto de Matemática

Programa de Pós-Graduação em Estatística

Orientador: Ralph S. Silva

Brasil2020

Page 3: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Modelo Bayesiano Heterocedástico de FatorizaçãoProbabilística de Matrizes

Leonara Alves Cesario da Silva

Dissertação de Mestrado submetida ao Pro-grama de Pós-Graduação em Estatística doInstituto de Matemática da Universidade Fe-deral do Rio de Janeiro, como parte dos re-quisitos necessários à obtenção do grau deMestre em Estatística.

Aprovado por:

Prof. Ralph dos Santos SilvaD.Sc., UFRJ

Prof. Marina Silva PaezD.Sc., UFRJ

Prof. Heudson Tosta MirandolaD.Sc., UFRJ

Brasil2020

Page 4: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

“A Goal without a Plan is just a Wish.” (Antoine de Saint-Exupéry)

Page 5: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Resumo

Essa dissertação propõe uma extensão do método de fatorização probabilís-tica de matrizes bayesiana para lidar com dados esparsos e de alta dimensionalidade,ou seja, dados contendo muitos zeros e com milhões de informações. Essa metodolo-gia emprega técnicas de fatores latentes, considerado o estado da arte em sistemas derecomendação baseado em modelos de filtragem colaborativa. A proposta é incluirvariações entre avaliações de usuários para acomodar opiniões divergentes sobre di-versos itens, que podem ser mais generosos ou não em suas críticas a respeito dosprodutos. Por essa razão, apresentar-se-ão novas prioris para os parâmetros que nãoforam definidas na abordagem anterior para obter maior escalabilidade e uma varia-ção específica para cada usuário. Além disso, os resultados obtidos serão comparadoscom os métodos de fatorização probabilística de matrizes (PMF) e fatorização pro-babilística bayesiana de matrizes (BPMF) para os dados da Netflix e do MovieLenscom base na raiz do erro quadrático médio (REQM).

Palavras-chaves: Dados Esparsos; Fatores Latentes; Filtragem Colaborativa; Sis-temas de Recomendação.

Page 6: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Abstract

This dissertation proposes an extension of the Bayesian probabilistic matrixfactorization to deal with sparse and high dimensional data, i.e., data containingmany zeros and with millions of information. This methodology uses techniques oflatent factors, considered the state-of-the-art in recommendation systems based oncollaborative filtering models. The proposal is to include variations among usersto accommodate divergent opinions on various items, which may or may not bemore generous in their critiques of the products. For this reason, new priors willbe presented for the parameters that were not defined in the previous approach toobtain greater scalability and a specific variation for each user. We compare theresults obtained with the probabilistic matrix factorization (PMF) and Bayesianprobabilistic matrix factorization (BPMF) in the Netflix and MovieLens datasetsbased on the root mean square error (RMSE).

Keywords: Collaborative Filtering; Latent Factors; Recommender Systems; SparseDatas.

Page 7: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Resumen

En esta disertación se propone una extensión de la factorización matricialprobabilística bayesiana para tratar con datos escasos y de alta dimensión, es decir,datos que contienen muchos ceros y millones de información. Esta metodologíautiliza técnicas de factores latentes, consideradas el estado del arte en sistemas derecomendación basados en modelos de filtrado colaborativo. La propuesta es incluirvariaciones entre las calificaciones de los usuarios para dar cabida a las opinionesdivergentes sobre varios artículos, que pueden o no ser más generosos en sus críticasde los productos. Por esta razón, se presentarán nuevas prioris para los parámetrosque no se definieron en el enfoque anterior para obtener una mayor escalabilidad yuna variación específica para cada usuario. Los resultados obtenidos se compararáncon los métodos de factorización de matriz probabilística (PMF) y de factorizaciónmatricial probabilística bayesiana (BPMF) en los datos de Netflix y MovieLensbasado en la raíz del error cuadrático medio (RECM).

Palabras clave: Datos Escasos; Factores Latentes; Filtrado Colaborativo; Sistemasde Recomendación.

Page 8: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Lista de Ilustrações

Figura 1 – Comparação entre Classificação e a Filtragem Colaborativa . . . . . . . 9Figura 2 – A Cauda Longa das Frequências de Avaliações . . . . . . . . . . . . . . 11Figura 3 – Fatorização de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . 16Figura 4 – Exemplo de Otimização por Gradiente Descendente . . . . . . . . . . . 31

Figura 5 – Curvas de Aprendizagem do PMF para os Dados da Netflix em Dife-rentes Valores de 𝑝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Figura 6 – Curvas de Aprendizagem do BPMF para os Dados da Netflix em Dife-rentes Valores de 𝑝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Figura 7 – Curvas de Aprendizagem do MH para os Dados da Netflix em DiferentesValores de 𝑝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Figura 8 – Curvas de Aprendizagem do PMF para os Dados do MovieLens emDiferentes Valores de 𝑝 . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

Figura 9 – Curvas de Aprendizagem do BPMF para os Dados do MovieLens emDiferentes Valores de 𝑝 . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

Figura 10 –Curvas de Aprendizagem do MH para os Dados do MovieLens em Di-ferentes Valores de 𝑝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Page 9: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Lista de Tabelas

Tabela 1 – Resultados Obtidos do PMF, BPMF e MH Aplicados aos Dados daNetflix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Tabela 2 – Resultados Obtidos do PMF, BPMF e MH Aplicados aos Dados doMovieLens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

Page 10: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Sumário

1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Sistemas de Recomendação . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2 Modelos de Filtragem Colaborativa . . . . . . . . . . . . . . . . . . . . . . 8

2.2.1 Matriz de Avaliações . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3 Métodos Baseados em Memória . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.1 Modelos de Vizinhança Baseados no Usuário . . . . . . . . . . . . . 112.3.2 Modelos de Vizinhança Baseados no Item . . . . . . . . . . . . . . . 13

2.4 Métodos Baseados em Modelos . . . . . . . . . . . . . . . . . . . . . . . . 142.4.1 Modelos de Fatores Latentes . . . . . . . . . . . . . . . . . . . . . . 15

2.5 Modelo Bayesiano Heterocedástico de Fatorização Probabilística de Matrizes 252.6 Métodos Iterativos de Otimização . . . . . . . . . . . . . . . . . . . . . . . 29

2.6.1 Interpretação e Otimização por Gradiente Descendente . . . . . . . 312.6.2 Interpretação e Otimização por Gradiente Descendente Estocástico:

Aprendizado em Mini-Batches . . . . . . . . . . . . . . . . . . . . . 32

3 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.1 Dados Reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.1.1 Dados da Netflix . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.1.2 Dados do MovieLens . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.2.1 Resultados para os Dados da Netflix . . . . . . . . . . . . . . . . . 373.2.2 Resultados para os Dados do MovieLens . . . . . . . . . . . . . . . 43

4 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Apêndices 52

Apêndice A Abordagem Bayesiana para a Fatorização Probabilística de Ma-trizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

A.1 Condicional Completa para 𝛼 . . . . . . . . . . . . . . . . . . . . . . . . . 54A.2 Condicional Completa para 𝜐𝑖 . . . . . . . . . . . . . . . . . . . . . . . . . 54

Page 11: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

A.3 Condicional Completa para 𝜈𝑗 . . . . . . . . . . . . . . . . . . . . . . . . . 55A.4 Condicional Completa para (𝜇𝜐,Λ𝜐) . . . . . . . . . . . . . . . . . . . . . 55A.5 Condicional Completa para (𝜇𝜈 ,Λ𝜈) . . . . . . . . . . . . . . . . . . . . . 57

Apêndice B Modelo Bayesiano Heterocedástico de Fatorização Probabilísticade Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

B.1 Condicional Completa para 𝛼 . . . . . . . . . . . . . . . . . . . . . . . . . 60B.2 Condicional Completa para 𝜐𝑖 . . . . . . . . . . . . . . . . . . . . . . . . . 61B.3 Condicional Completa para 𝜈𝑗 . . . . . . . . . . . . . . . . . . . . . . . . . 61B.4 Condicional Completa para (𝜇𝜐,Λ𝜐) . . . . . . . . . . . . . . . . . . . . . 62B.5 Condicional Completa para (𝜇𝜈 ,Λ𝜈) . . . . . . . . . . . . . . . . . . . . . 64B.6 Condicional Completa para 𝜆𝜐𝑖

. . . . . . . . . . . . . . . . . . . . . . . . 64B.7 Condicional Completa para 𝜆𝜈𝑗

. . . . . . . . . . . . . . . . . . . . . . . . 65B.8 Condicional Completa para 𝜅𝜐 . . . . . . . . . . . . . . . . . . . . . . . . . 65B.9 Condicional Completa para 𝜅𝜈 . . . . . . . . . . . . . . . . . . . . . . . . . 65

Page 12: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

1

Capítulo 1

Introdução

Na realidade em que há um crescente aumento de vendas via Internet, empresasque aproveitam a era digital e se adaptam a esses novos tipos de consumidores para lu-crarem estão propensas a venderem mais. Com a popularização desse consumo, nota-seuma maior interação entre os consumidores e as companhias para descobrirem se a aqui-sição de determinado produto é interessante - com a atribuição de certas avaliações queidentificam se o item seria uma boa compra ou não. O resultado dessas opiniões poderiamoferecer a todo tipo de empresa uma possibilidade para enxergar oportunidades de negó-cios, visto que especificam características únicas de cada cliente sobre suas experiênciascom a empresa.

Se uma companhia detém de informações específicas de todos os seus clientes so-bre compras no passado, pode-se conjecturar o universo de possibilidades que ela teria seobtivesse um meio de antecipar compras futuras de seus clientes. A consequência dissoé o que será chamado de “sistemas de recomendação”. Esses sistemas têm por objetivosintetizar informações de cada usuário e tentar antecipar avaliações de cada cliente sobreestipulado produto. Com base nisso, o processo poderia recomendar previamente produ-tos que o usuário poderia se interessar antes mesmo desse cliente ter conhecimento quedesejaria de fato aquele item.

Existem muitos exemplos em relação a empresas que utilizam sistemas de reco-mendação. Eles podem ser encontrados em sítios como Spotify1 que recomendam músicas,podcasts e vídeos para escutar; no Facebook2 em que há sugestões de amigos de acordo comsua própria rede de amizades; na Amazon3 em que produtos são recomendados através doque o usuário comprou, quais itens estão guardados em seu “carrinho”, itens que foramclassificados como bons e clientes que viram e compraram aqueles produtos; e, talvez o1 https://www.spotify.com2 https://www.facebook.com3 https://www.amazon.com

Page 13: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 1. Introdução 2

mais conhecido atualmente, há o sistema de recomendação da Netflix4, lugar no qual sãorecomendados diversos filmes e séries com base nas suas preferências anteriores, assinan-tes com gostos semelhantes, informações sobre os títulos (como gênero, atores principais,ano de lançamento, etc), o horário e tempo em que a pessoa costuma assistir e, ainda, osaparelhos eletrônicos nos quais o indivíduo assiste.

Com uma maior facilidade de se obter dados de avaliações de usuários, é impor-tante produzir procedimentos analíticos específicos que capturem de maneira razoável asinformações obtidas e possam ajudar as empresas a obterem discernimentos sobre seusclientes. A partir disso, pode-se classificar os sistemas de recomendação em diversas cate-gorias: filtragem colaborativa, conteúdo, conhecimento, demografia e híbrido. Os métodosde filtragem colaborativa utilizam informações de usuários ou itens similares para faze-rem recomendações, já o método baseado em conteúdo utiliza conhecimentos sobre osprodutos consumidos no passado (tais como gênero, descrição, atores, dentre outros).

O método baseado em conhecimento está ligado à circunstância dos itens não seremcomprados muito frequentemente (como carros, casas e jóias) e em casos em que o clientequeira características muito detalhadas sobre o que pretende adquirir (como cor, tamanhoe largura). Então, é inviável obter dados peculiares sobre cada item e suas especificações e,assim, esse sistema extrai informações sobre requerimentos dos usuários e descrições dositens. Outro sistema de recomendação é o da demografia, em que se tem a utilização daslocalizações dos usuários para o aprimoramento das recomendações. Por fim, o sistemahíbrido é caracterizado pelo emprego de técnicas de junções do pontos fortes dos tipos desistemas citados anteriormente para a criação de um sistema mais robusto e assertivo.

Apesar de existirem diversas estratégias para indicar produtos aos usuários, é maiscomum o uso dos modelos de filtragem colaborativa, pois apresentam características que seassemelham aos artifícios aplicados em aprendizagem automática (machine learning) nocontexto de classificação. Esse fato justifica o uso dos mesmos modelos da literatura parafazer recomendações, tais como redes neurais, máquinas de vetores de suporte, árvores dedecisão, modelos bayesianos, etc. Entretanto, na era de grandes conjuntos de dados, háuma maior preocupação com a quantidade de informação disponível e, neste caso, modelosusuais encontrados podem não ser eficientes.

Na literatura, existem diversas técnicas que se propõem a analisar dados de avali-ações. No entanto, em sua maioria, esses dados não tem alta dimensionalidade - milhõesde usuários classificando milhares de produtos. Canny (2002) desenvolveu um novo proce-dimento de filtragem colaborativa que protege a privacidade dos usuários, porém tambémaplicando uma análise fatorial probabilística para manuseio de dados faltantes. Ele uti-lizou uma abordagem linear que normalmente generaliza os métodos de decomposiçãode valores singulares (SVD, sigla no inglês) e a regressão linear. Para suas aplicações,4 https://www.netflix.com

Page 14: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 1. Introdução 3

ele empregou o método iterativo conhecido como algoritmo da esperança-maximização(EM, sigla do inglês) que tem características para lidar com dados esparsos e definiçõesrecursivas simples que pode ser combinado com a sua principal ideia: a privacidade.

Xian et al. (2017) aplicaram uma extensão do SVD, o SVD++. Esse método secaracteriza por uma adição de informações implícitas de feedbacks dos usuários. Elesutilizaram essa metodologia com a preocupação de respeitar a privacidade dos usuários e,por isso, empregaram uma terminologia chamada de “privacidade diferencial” que protegeque outras pessoas descubram informações das características pessoais de cada indivíduona base de dados.

Gemulla et al. (2011) construiu um algoritmo para aproximar grandes matrizes -com milhões de avaliações de usuários para milhões de produtos, sendo bilhões de elemen-tos não vazios. Esse novo algoritmo é uma extensão distribuída do método utilizando o gra-diente descendente estocástico, um algoritmo de otimização estocástica. Assim, mostrou-seque é possível tratar matrizes de escala da rede mundial de computadores, com rápidaconvergência e escalabilidade.

Um estudo feito por Devooght, Kourtellis e Mantrach (2015) explicou que como,comumente, assume-se que a distribuição das avaliações faltantes é a mesma dos obser-vados, então eles introduziram uma estrutura de fatorização de matrizes dinâmica per-mitindo atribuir prioris explícitas para esses valores desconhecidos. A peculiaridade deseu trabalho está no fato de que para novos usuários ou itens, pode-se simplesmente atu-alizar a fatorização independente do tamanho dos dados, podendo fazer recomendaçõesrapidamente para novos usuários.

Kabbur, Ning e Karypis (2013) destacaram que a efetividade decai em métodos derecomendação para os top-k usuários ou itens mais próximos com o aumento da esparsi-dade dos dados (quantidade de zeros). Com base nisso, eles propõem um método baseadonos itens com o intuito de gerar as top-k recomendações que consigam aprender a matrizde similaridade com base em fatores latentes. Os resultados com diferentes bancos dedados apresentando distintos graus de esparsidade indicaram que seu método tem melhorperformance se comparado às metodologias vistas na literatura.

Barbieri, Braida e Zimbrão (2017) apresentaram uma aplicação da filtragem co-laborativa para aprendizagem supervisionada (COFILS, sigla no inglês) para reduzir aesparsidade dos dados e utilizá-los em outros problemas em aprendizagem automática.A principal ideia foi: em vez utilizar a forte dependência desse método com o SVD, elesusaram Stacked Denoising Autoencoder (SDA, sigla no inglês) - uma arquitetura de redesneurais profundas de redução de ruídos nos dados. Eles testaram seus resultados em di-versas bases de dados, inclusive na base do MovieLens 100k (contendo 100 mil avaliaçõesde usuários) e obtiveram melhorias em todas as comparações realizadas.

Page 15: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 1. Introdução 4

Shen et al. (2019) construíram um novo sistema de recomendação que utiliza ca-racterísticas específicas dos locais que os usuários frequentaram no passado para fazeremsuas recomendações. A técnica é denominada ’recomendação landmark’ e tenta identificaratravés de um classifcador unificado estilos de preferências baseados em adaptação do do-mínio, aproveitando as fotos de sítios no domínio de origem e a imagem de referência nodomínio de destino. Então, esses estilos que foram detectados são usados para aprenderemas melhores propensões dos usuários e usados para recomendação. Eles destacam que me-todologias personalizadas para cada usuário é uma abordagem que tem alta efetividadenas aplicações em dados de viagens do mundo real.

1.1. Objetivos

O objetivo geral dessa dissertação é apresentar um procedimento para a prediçãode avaliações de usuários sobre determinados itens a partir de dados reais de alta dimen-sionalidade quando, frequentemente, mecanismos habituais empregados na literatura nãosão adequados.

Os objetivos específicos são:

∙ estudar os conceitos básicos sobre modelos de filtragem colaborativa, os principaismétodos de sistemas de recomendação baseados nos usuários e nos itens, bem comoas estratégias mais usuais de otimização;

∙ produzir uma metodologia para estimar as avaliações de usuários para um conjuntode itens previamente estabelecidos utilizando, para isso, fatorização de matrizes,mais especificamente, a decomposição probabilística de matrizes, a abordagem baye-siana para a decomposição probabilística de matrizes e a proposta de generalizaçãoque inclui heterocedasticidade entre itens ou usuários;

∙ avaliar a capacidade do método proposto de predizer mais adequadamente as avali-ações dos usuários usando, para esse fim, dados de treinamento e de testes devida-mente selecionados; e

∙ comparar, com a mesma base de dados, a performance da ferramenta desenvolvidanesta dissertação com os métodos de fatorização probabilística de matrizes e defatorização probabilística de matrizes: abordagem bayesiana.

Page 16: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 1. Introdução 5

Esta dissertação está organizada como descrito a seguir. No Capítulo 2, serão de-finidos todos os conceitos básicos de sistemas de recomendação, uma exploração sobre oque são modelos de filtragem colaborativa e as definições mais importantes para a com-preensão e criação da metodologia para dados de alta dimensionalidade. No Capítulo 3,apresentar-se-ão a aplicação do método proposto em dados reais para avaliar a assertivi-dade e a consistência do modelo. Por fim, no Capítulo 4, será relatada a conclusão dosresultados encontrados nesta dissertação.

Page 17: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

6

Capítulo 2

Sistemas de Recomendação

Neste capítulo, serão apresentadas as definições básicas dos sistemas de recomen-dação (Seção 2.1) bem como o principal modelo empregado e suas características maisrelevantes utilizadas neste trabalho (Seção 2.2). Em seguida, na Seção 2.3 e na Seção 2.4,serão retratadas as mais predominantes categorias em filtragem colaborativa e, inclusive,como podem ser utilizadas para prever avaliações de usuários para devidos itens. Aindana Seção 2.4, serão definidos os fundamentos, premissas e idealizações, através de outrasabordagens vistas na literatura, que terão grande participação na concepção da metodo-logia proposta nesta dissertação. Finalmente, será estabelecido um modelo original emproveito dessa dissertação (Seção 2.5), que permite variabilidades diferentes (heteroce-dasticidade) entre os vários itens e também entre os diversos usuários, e isto tende aquantificar mais assertivamente avaliações de grande quantidade de usuários para certositens.

2.1. Conceitos Básicos

Com o desenvolvimento da tecnologia, há uma crescente interação entre os usuáriosde um sítio da rede mundial de computadores (internet) e suas opiniões em relação aosprodutos consumidos. Nesses casos, o vendedor pode estar interessado em ampliar suasvendas segundo essas respostas dos clientes ao empregar técnicas para avaliar relevânciasde determinados itens para os usuários. À vista disso, o negociante pode usufruir dediversas características dos dados para fazer suas recomendações, tais como similaridadesentre os usuários, similaridades entre itens e semelhanças entre usuários e itens. Definem-se como “usuário” (user) o indivíduo o qual a recomendação é providenciada e como“item” (item) o produto que será recomendado ao usuário.

O objetivo principal dos sistemas de recomendação é aumentar o número de vendas(Aggarwal, 2016). Entretanto, deve-se obter certas propriedades que melhorem a recomen-

Page 18: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 7

dação aos usuários. Essas qualidades são intituladas “relevância”, “novidade”, “acaso”, e“diversidade” e serão descritas a seguir. Denomina-se “relevância” (relevance) a importân-cia do item ao usuário. O propósito é recomendar itens que possuam, preferencialmente,mais relevância para o usuário, visto que eles tendem a consumir itens julgados mais in-teressantes. Por exemplo, presuma que se quer fazer recomendação de um filme para ousuário João e já se sabe que ele está mais interessado em filmes de ação, então é provei-toso considerar que João esteja mais interessado em assistir a outros filmes de ação, emvez de, por exemplo, drama.

O termo “novidade” (novelty) se caracteriza pela recomendação de um item que ousuário não tenha visto em nenhum momento no passado. Por outro lado, o conceito de“acaso” (serendipity) envolve algo inesperado para o usuário, pois ele não tinha conhe-cimento de que tinha interesse em certo item e, dessa forma, pode-se iniciar uma novatendência de interesses no usuário e agregar diversidade nas recomendações. Por exemplo,assuma que uma empresa almeja recomendar um novo filme ao usuário João. Sabe-se queJoão consumiu diversos filmes de ação tais como Aquaman, Venom e Jogador No. 1. Sea empresa indicar um filme de ação que estreou recentemente a esse usuário, então essarecomendação é novidade, porém não é acaso. Contudo, se a empresa recomendar umfilme de ficção científica tal como Interestelar, então essa recomendação é acaso, já queo usuário não esperava essa recomendação a ele. Ainda assim, este item pode não serrelevante ao usuário.

E, por último, o termo “diversidade” (diversity) se destaca no fato de que se ossistemas de recomendação possuírem itens muito similares, corre-se o risco de nenhumdeles instigar interesse no usuário. Em contrapartida, se a lista de recomendações possuirdiversos itens de diferentes categorias, há uma chance maior de que o usuário se interesse,no mínimo, por um deles. Nessas situações, é importante destacar que investir somenteem uma das qualidades pode não tornar o sistema de recomendação apropriado, mas simo conjunto de todas as características anteriormente descritas.

Não obstante, um dos rudimentares obstáculos encontrados nos sistemas de reco-mendação é chamado “início frio” (cold-start), situação que ocorre quando um usuárionão avaliou nenhum item (ou quase nenhum), ou no contexto em que um item não foiavaliado por nenhum usuário (ou perto de nenhum). Em tais ocorrências, a análise dasespecificidades que caracterizam um adequado sistema de recomendação é prejudicada,pois dificulta a possibilidade de distinguir características de novos usuários, ou de novositens, se não existem conhecimentos antecedentes.

Page 19: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 8

2.2. Modelos de Filtragem Colaborativa

Os modelos de filtragem colaborativa utilizam o conceito de similaridades entrediversos usuários ou inúmeros itens para fazerem recomendações. Um dos maiores desa-fios desses modelos é lidar com muitos itens sem especificações, denominado de dadosesparsos. Por exemplo, considere novamente o exemplo de filmes. Usualmente, os usuáriosapenas avaliaram uma pequena fração de todos os filmes disponíveis e, assim, uma grandequantidade de filmes não foram avaliados por muitos usuários.

Do mesmo modo, esses modelos oferecem dupla complexidade por apresentaremcomplicações tanto para novos usuários quanto para novos filmes (início frio), uma vezque não é possível computar similaridades entre usuários e filmes quando não houveconsumo prévio. As avaliações especificadas serão chamadas de “avaliações observadas”e as não especificadas serão chamadas de “avaliações não-observadas” ou, simplesmente,“avaliações faltantes”.

A ideia principal dos modelos de filtragem colaborativa é imputar os dados de ava-liações faltantes através de similaridades entre itens, usuários ou ambos. Os dois métodosfrequentemente mais utilizados em filtragem colaborativa são os métodos baseados emmemória e os métodos baseados em modelos. Os métodos baseados em memória tambémsão chamados de algoritmos de filtragem colaborativa fundamentados em vizinhança. Essefoi um dos primeiros algoritmos criados de filtragem colaborativa e suas avaliações sãopreditas baseadas em vizinhanças que podem ser medidas a partir do usuário ou do item.

Na primeira conjuntura, as avaliações de outros usuários são utilizadas para faze-rem recomendações para um usuário alvo. A finalidade é determinar usuários similares aousuário alvo e aplicar esse resultado para fazer recomendações. Neste caso, suponha quese pretende recomendar um filme ao usuário João e é conhecido que o indivíduo Pedrotem gostos análogos a João. Então, o modelo de filtragem colaborativa utilizaria essa si-milaridade para fazer recomendações para João de filmes que Pedro assistiu e avaliou eJoão não. Comumente, utiliza-se os k-usuários mais similares ao usuário alvo para fazerpredições.

Por outro lado, na filtragem baseada no item, examina-se os itens mais similaresa um item alvo para fazer predições da avaliação de um usuário para esse item. Nestecenário, utiliza-se o histórico de itens avaliados pelo usuário para predizer se o usuáriose interessará pelo item alvo. Por exemplo, suponha que o histórico de filmes adquiridospor João seja somente de filmes de ação, então a filtragem colaborativa baseada em itensrecomendaria outros filmes similares a esses filmes de ação.

No método baseado em vizinhança não é construído um modelo: a predição é feitaespecificamente para a instância que está sendo predita. Alternativamente, nos métodos

Page 20: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 9

baseados em modelos, um modelo é sintetizado dos dados. Portanto, a fase de treinamentoé nitidamente separada da predição. Exemplos dessa abordagem é dada por árvores dedecisão, modelos de regressão, classificadores de Bayes e modelos de fatores latentes.

2.2.1. Matriz de Avaliações

Seja ℛ = [𝑟𝑖𝑗] a matriz 𝑚 × 𝑛 de avaliações dos usuários-itens, em que 𝑚 é onúmero de usuários, 𝑛 é o número de itens e 𝑟𝑖𝑗 é a avaliação do i-ésimo usuário parao item 𝑗. É importante ressaltar que pode haver dados faltantes em qualquer uma daslinhas ou colunas dessa matriz. Sendo assim, pode-se imaginar os métodos de filtragemcolaborativa como uma generalização dos modelos de classificação e regressão. A Figura 1exibe uma comparação entre os problemas de classificação e filtragem colaborativa.

Repare que nos problemas de classificação há uma perfeita distinção entre as variá-veis independentes e as variáveis dependentes, em razão da variável que será predita estarexclusivamente em uma coluna e, ainda, os dados são evidentemente divididos em dadosde treinamento e dados de teste. Nos casos de filtragem colaborativa, essa distinção nãoexiste, já que qualquer atributo pode representar os papéis de variáveis independentes edependentes e, além disso, não há discernimento entre dados de treinamento e dados deteste, uma vez que qualquer linha e coluna podem apresentar dados não-observados. Noentanto, pode-se referir aos dados especificados como dados de treinamento e os dadosnão-observados como dados de teste.

(a) Classificação (b) Filtragem Colaborativa

Figura 1 – Comparação entre os Problemas de Classificação e a Filtragem Colaborativa.

As avaliações 𝑟𝑖𝑗 podem ser divididas de diversas formas dependendo de quais

Page 21: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 10

dados serão tratados (Aggarwal, 2016), tais como:

∙ Avaliações Contínuas: nestas avaliações, especifica-se uma escala contínua, depen-dendo do nível de gostos do usuário. Uma desvantagem dessa abordagem é que ousuário deve pensar em um número entre infinitas (não enumerável) possibilidades;

∙ Avaliações Discretas: neste contexto, o usuário atribui valores para os itens em umaescala que pode variar entre 1 e 𝐻, para algum 𝐻 ∈ N+, por exemplo 𝐻 = 5 ou𝐻 = 7. Uma elementar suposição é que os valores numéricos definem expressamentedistâncias entre as avaliações;

∙ Avaliações Ordinais: nestes casos, utiliza-se valores categóricos ordenados para aspreferências dos usuários. Um exemplo de respostas poderia ser “Discordo Total-mente”, “Discordo Parcialmente”, “Neutro”, “Concordo Parcialmente” e “ConcordoTotalmente”. Essas avaliações podem ser, similarmente, tratadas como avaliaçõesdiscretas, transformando-as em uma escala variando de 1 a 5;

∙ Avaliações Binárias: no caso de avaliações binárias, meramente duas opções sãooferecidas, correspondendo a respostas positivas ou negativas, não sendo capaz deconceder avaliações neutras; e

∙ Avaliações Unárias: neste cenário, não é permitido aos usuários especificarem ava-liações negativas ou neutras. Um exemplo prático é quando o consumidor compraum item. Esse ato é apontado como um retorno positivo, porém a não ocorrênciada compra não necessariamente indica que ele não gostou do item.

Uma das pecularidades da distribuição das avaliações entre os itens é chamada de“cauda longa” (long tail). De acordo com essa propriedade, somente uma parcela de todosos itens são avaliados regularmente. Esses itens são referenciados como itens populares.Um exemplo dessa distribuição é dada na Figura 2 a seguir.

Essa característica tende a desempenhar um papel crucial no sistema de reco-mendação - ao fazê-lo sempre indicar os itens mais populares em detrimento dos menosavaliados. Esse evento tem uma notável influência na diversidade, dado que os usuáriostendem a perder o interesse ao receber unicamente itens populares. Desse modo, essa par-ticularidade da matriz de avaliação, assim como esparsidade, deve ser estudada duranteo procedimento de recomendação.

Page 22: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 11

Figura 2 – A Cauda Longa das Frequências de Avaliações.

2.3. Métodos Baseados em Memória

Os métodos baseados em memória (ou vizinhança) são chamados de métodos “pre-guiçosos”, visto que um modelo não é notadamente elaborado para a predição. Esses mé-todos utilizam diversas funções de similaridades, que medem discrepância entre objetos,para analisar aspectos em comum entre os usuários ou itens para fazer recomendações.Essa seção abordará mais detalhadamente as metodologias aplicadas aos métodos basea-dos em memória e como é feita a predição, separando os conceitos aplicados ao usuário eao item.

2.3.1. Modelos de Vizinhança Baseados no Usuário

Nessa abordagem serão definidas vizinhanças do usuário alvo para identificar osusuários similares para prever avaliações. Considere novamente a matriz ℛ = [𝑟𝑖𝑗] de 𝑚usuários e 𝑛 itens e defina J𝑖 o conjunto dos índices dos itens que foram avaliados pelo𝑖-ésimo usuário e J𝑖 ∩ J𝜄 o conjunto de índices dos itens que foram avaliados tanto pelousuário 𝑖, quanto pelo usuário 𝜄. Por exemplo, suponha que o usuário João avaliou os itens1 - Aquaman, 6 - Venom e 12 - Jogador No. 1 e o restante são filmes que ele não avaliou ounão assistiu, então J𝐽𝑜ã𝑜 = {1,6,12}. Além disso, assuma que outro usuário, Pedro, avaliouos itens 1 - Aquaman, 3 - Vingadores e 12 - Jogador No. 1, assim J𝐽𝑜ã𝑜 ∩ J𝑃𝑒𝑑𝑟𝑜 = {1, 12}.Observe que é possível que a interseção seja vazia, pois as matrizes, tipicamente, sãoesparsas.

Uma medida de similaridade entre vetores de avaliações é chamada de correlação

Page 23: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 12

de Pearson, denotada por Pearson, em que o elemento genérico Pearson(𝑖, 𝜄) expressa asimilaridade entre os usuários 𝑖 e 𝜄 e é definida como:

Pearson(𝑖, 𝜄) =∑𝑗∈J𝑖∩J𝜄

(𝑟𝑖𝑗 − ��𝑖) · (𝑟𝜄𝑗 − ��𝜄)√∑𝑗∈J𝑖∩J𝜄

(𝑟𝑖𝑗 − ��𝑖)2 ·√∑

𝑗∈J𝑖∩J𝜄(𝑟𝜄𝑗 − ��𝜄)2

,

em que ��𝑖 =∑

𝑗∈J𝑖𝑟𝑖𝑗

|J𝑖| , ∀𝑖 ∈ {1, . . . ,𝑚}, ��𝜄 =∑

𝑗∈J𝜄𝑟𝑓𝑗

|J𝜄| , ∀𝜄 ∈ {1, . . . ,𝑚} e | · | é ocomprimento do conjunto, isto é, o número de itens avaliados. Note que ��𝑖 e ��𝜄 serãocomputados somente para as avaliações dadas pelos usuários 𝑖 e 𝜄, respectivamente, e nãopara as interseções das avaliações dos usuários.

Um dos predominantes problemas nessa abordagem se encontra no fato de que osusuários podem prover avaliações em diferentes escalas. Por conseguinte, é importantefazer uma normalização dos dados antes do cálculo da similaridade, caso contrário osresultados podem apresentar vieses. Tal normalização será feita pela média de cada usuárioe o resultado será chamado de avaliações centradas pela média:

𝑠𝑖𝑗 = 𝑟𝑖𝑗 − ��𝑖, ∀𝑖 ∈ {1, . . . ,𝑚}.

Além da correlação de Pearson, pode-se definir o que será chamado de função desimilaridade de cosseno, em que Cosseno(𝑖, 𝜄) expressa a similaridade entre os usuários 𝑖e 𝜄 através das avaliações sem normalização:

Cosseno(𝑖, 𝜄) =∑𝑗∈J𝑖∩J𝜄

𝑟𝑖𝑗 · 𝑟𝜄𝑗√∑𝑗∈J𝑖∩J𝜄

𝑟2𝑖𝑗 ·

√∑𝑗∈J𝑖∩J𝜄

𝑟2𝜄𝑗

·

Geralmente, é preferível utilizar o coeficiente de correlação de Pearson que a funçãode similaridade de cosseno por causa do efeito do viés, sem aplicar a normalização dasavaliações. Ainda assim, as funções de similaridade em geral, Sim(𝑖, 𝜄), são afetadas pelonúmero de elementos em comum avaliados pelo usuários 𝑖 e 𝜄. Aggarwal (2016) recomendaempregar um fator de desconto para desvalorizar a importância de pares de usuários compoucos itens avaliados em conjunto. Esse método é chamado de ponderação de significância(significance weighting) e é dado por:

DiscontSim(𝑖, 𝜄) = Sim(𝑖, 𝜄) · min(|J𝑖 ∩ J𝜄|, 𝛽)𝛽

,

em que 𝛽 é o limite inferior do total de avaliações em comum entre os usuários 𝑖 e 𝜄. Oobjetivo é que o fator de desconto atribua um peso menor a pares de usuários em que onúmero de avaliações na interseção entre 𝑖 e 𝜄 seja menor que 𝛽 (por exemplo, os pares deusuários que avaliaram menos de 𝛽 = 5 itens em comum terão uma menor importânciano cálculo da similaridade).

Após o cálculo da similaridade entre os usuários, faz-se a previsão das avaliaçõesfaltantes do usuário 𝑖 para o item 𝑗. Usualmente, essa predição é feita com base nos 𝑘

Page 24: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 13

usuários mais similares ao usuário 𝑖 (top-𝑘). Seja 𝒫𝑖(𝑗) o conjunto dos 𝑘 usuários maispróximos do usuário alvo 𝑖 e que especificaram avaliações para o item 𝑗, então a funçãode predição, 𝑟𝑖𝑗, do usuário alvo 𝑖 para o item 𝑗 é dada por:

𝑟𝑖𝑗 = ��𝑖 +∑𝜄∈𝒫𝑖(𝑗) 𝑆𝑖𝑚(𝑖, 𝜄) · 𝑠𝜄𝑗∑𝜄∈𝒫𝑖(𝑗) |𝑆𝑖𝑚(𝑖, 𝜄)| ·

Outro tratamento para os cálculos das predições é com o uso do escore Z, 𝑧𝑖𝑗, quedivide 𝑠𝑖𝑗 com o desvio padrão 𝜎𝑖 das avaliações observadas do usuário 𝑖. Nesse caso, asavaliações padronizadas ficam da forma:

𝑧𝑖𝑗 = 𝑟𝑖𝑗 − ��𝑖��𝑖

= 𝑠𝑖𝑗��𝑖,

em que ��𝑖 =

⎯⎸⎸⎷∑𝑗∈J𝑖(𝑟𝑖𝑗 − ��𝑖)2

|J𝑖| − 1 ·

Portanto, a avaliação predita, 𝑟𝑖𝑗, do usuário 𝑖 para o item 𝑗 é definida como:

𝑟𝑖𝑗 = ��𝑖 + ��𝑖

∑𝜄∈𝒫𝑖(𝑗) 𝑆𝑖𝑚(𝑖, 𝜄) · 𝑧𝜄𝑗∑𝜄∈𝒫𝑖(𝑗) |𝑆𝑖𝑚(𝑖, 𝜄)| ·

2.3.2. Modelos de Vizinhança Baseados no Item

Nos modelos de vizinhança baseados no item, a similaridade é calculada a partirdos itens (colunas da matriz), em vez dos usuários (linhas da matriz). Nesse cenário, cadalinha da matriz deve ser normalizada pela média para computar 𝑠𝑖𝑗. Sejam U𝑗 o conjuntodos índices dos usuários que avaliaram o item 𝑗 e U𝑗 ∩ Uℓ o conjunto de índices dosusuários que avaliaram tanto o item 𝑗, quanto o item ℓ. Por exemplo, suponha que osusuários 4 - João, 13 - Pedro e 27 - Ana avaliaram o filme Aquaman, então U𝐴𝑞𝑢𝑎𝑚𝑎𝑛 ={4,13,27}. Além disso, se somente Pedro e Ana avaliaram o filme Aquaman e Vingadoresem conjunto, tem-se que U𝐴𝑞𝑢𝑎𝑚𝑎𝑛 ∩ U𝑉 𝑖𝑛𝑔𝑎𝑑𝑜𝑟𝑒𝑠 = {13, 27}. Repare que, bem como nocaso dos usuários, é possível que a interseção seja vazia, pois as matrizes são esparsas.

Uma medida de similaridade entre vetores de avaliações é chamada de CossenoAjustado, denotada por AjustCosseno, em que o elemento genérico AjustCosseno(𝑗, ℓ)expressa a similaridade entre os itens 𝑗 e ℓ e é estabelecida como:

AjustCosseno(𝑗, ℓ) =∑𝑖∈U𝑗∩Uℓ

𝑠𝑖𝑗 · 𝑠𝑖ℓ√∑𝑖∈U𝑗∩Uℓ

𝑠2𝑖𝑗 ·

√∑𝑖∈U𝑗∩Uℓ

𝑠2𝑖ℓ

·

Essa similaridade é denominada cosseno ajustado por suas avalições serem centra-das na média antes de computar a função de similaridade.

Em seguida ao cálculo da similaridade entre os itens, faz-se a previsão das avaliaçõesfaltantes do item 𝑗 para o usuário 𝑖, 𝑟𝑖𝑗. Habitualmente, essa predição é feita com base

Page 25: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 14

nos 𝑘 itens mais similares ao item 𝑗. Seja 𝒬𝑗(𝑖) o conjunto dos 𝑘 itens mais semelhantesao item alvo 𝑗 e que foram avaliados pelo usuário 𝑖, então a função de predição, 𝑟𝑖𝑗, dousuário 𝑖 para o item alvo 𝑗 é dada por:

𝑟𝑖𝑗 =∑ℓ∈𝒬𝑗(𝑖) 𝐴𝑗𝑢𝑠𝑡𝐶𝑜𝑠𝑠𝑒𝑛𝑜(𝑗, ℓ) · 𝑟𝑖𝑗∑ℓ∈𝒬𝑗(𝑖) |𝐴𝑗𝑢𝑠𝑡𝐶𝑜𝑠𝑠𝑒𝑛𝑜(𝑗, ℓ)| ·

O intuito por trás dessa análise está em explorar as avaliações do próprio usuárioem itens similares para fazer a predição, ou seja, investigar seu histórico. Nesse caso,admita, por exemplo, que João já assistiu os filmes Aquaman, Vingadores e Jogador No. 1.Conforme a abordagem de vizinhaça por itens, pode-se presumir que ele se interessarápor outros filmes do mesmo gênero.

2.4. Métodos Baseados em Modelos

Nos métodos baseados em modelos, diferentemente nos de memória, um modelo éefetivamente criado para a predição. Exemplos desses métodos são dados através da gene-ralização de metodologias comumente aplicadas em aprendizagem automática (machinelearning). Isso decorre pelo fato de poder entender o problema de filtragem colaborativacomo uma extensão dos problemas de classificação e regressão. Tais exemplos aplicáveissão as árvores de decisão, máquinas de vetores de suporte (SVM, sigla do inglês), modelosde regressão, redes neurais, modelos de fatores latentes, dentre outros.

Embora os métodos baseados em memória estão entre os mais antigos recursosutilizados em filtragem colaborativa e, ainda, serem mais populares por causa de suasimplicidade, eles não necessariamente apresentam maior acurácia. Na prática, os melhoresmétodos são baseados em modelos, pois contêm uma série de vantagens se comparadaaos baseados em vizinhança descritos anteriormente. Dentre elas estão a eficiência, avelocidade de treinamento e de predição e a possibilidade de evitar um super ajuste aosdados (overfitting).

No caso da eficiência, tem-se que o tamanho do modelo aprendido é muito menorque a matriz de avaliações original. Assim, o espaço requerido é regularmente inferior.No que se refere ao cenário de treinamento e teste, os sistemas baseados em modelossão muito mais rápidos na fase de pré-processamento. Além disso, a possibilidade degeneralização dos modelos normalmente propicia evitar sobreajuste aos dados e pode-se,também, aplicar estratégias de regularização de modo a proporcionar mais robustez àspredições. Embora haja uma gama de modelos aplicáveis à filtragem colaborativa, nestadissertação, concentrar-se-ão nos modelos de fatores latentes (e em suas virtudes) queserão detalhados em seguida.

Page 26: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 15

2.4.1. Modelos de Fatores Latentes

Dados em altas dimensões estão sendo ininterruptamente gerados a todo momento.Nessa situação, dificilmente se consegue armazenar e lidar com grandes conjuntos de dadossem grandes recursos computacionais. Assim, reduzir a dimensionalidade se torna umaopção bem viável ao projetá-los em uma dimensão menor que capture somente a essênciados dados. A motivação desse procedimento é que apesar dos dados estarem em umaalta dimensão, podem haver somente pequenos graus de variabilidade dentro deles (dosdados), correspondendo aos fatores latentes (Murphy, 2012).

Em termos técnicos, os métodos de redução de dimensionalidade rotacionam osistema de eixos, tal que a correlação de pares entre dimensões é removida. No contextodessa dissertação, o pensamento central é que a representação reduzida, rotacionada ecompletamente especificada pode ser satisfatoriamente estimada a partir de uma matriz dedados incompleta. Uma vez que a representação especificada completa foi obtida, pode-serotacionar de volta para os eixos originais e se tem uma matriz completamente observada.

Por exemplo, considere a matriz de avaliações de usuários que opinaram sobredeterminados filmes. Suponha, igualmente, que existam diversos usuários que apresen-tam semelhanças por interesses entre certos itens. Assim, a redução de dimensionalidadeoferece uma representação compacta de usuários e itens que refletem as característicasprincipais dos dados. Um benefício dessa abordagem é que permite obter relações signifi-cantes entre pares de usuários e itens, mesmo que eles não tenham avaliados os mesmositens, ou os itens não foram avaliados pelos mesmos usuários (Aggarwal, 2016).

O objetivo dos modelos de fatores latentes é utilizar essa teoria para estimar amatriz de avaliações completa de uma única vez. Em consequência, é considerado o estadoda arte em sistemas de recomendação. Estes modelos serão a base desta dissertação eserão usados no capítulo de aplicações. Assim, é de fundamental importância conhecerbem estes modelos e como eles podem ser construídos a partir da decomposição de valoressingulares. Portanto, essa seção abordará mais detalhadamente as metodologias aplicadasaos métodos baseados em modelos empregando fatores latentes, bem como a formulaçãode fatorização de matrizes, o raciocínio por trás da redução de dimensionalidade e comoé realizada a predição.

Princípios Básicos de Fatorização de Matrizes

No modelo básico de fatorização de matrizes, uma forma de separação da matrizde avaliação ℛ consiste aproximadamente no produto de uma matriz 𝑈 (𝑚× 𝑝) e de umamatriz 𝑉 (𝑛× 𝑝) tal que:

ℛ ≈ 𝑈𝑉 𝑇 . (2.1)

Page 27: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 16

Cada coluna de 𝑈 (ou 𝑉 ) pode ser chamada de vetor/componente latente e cadalinha de 𝑈 (ou 𝑉 ) é classificada como fator latente.

O erro de aproximação é igual a:

||ℛ − 𝑈𝑉 𝑇 ||2,

em que || · || é nomeada como norma de Frobenius (quadrática).

Portanto, a função objetivo corresponde à soma dos quadrados das entradas namatriz de resíduos resultante (ℛ − 𝑈𝑉 𝑇 ):

𝑒𝑖𝑗 = 𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗, 𝑖 = 1, 2, . . . ,𝑚, e 𝑗 = 1, 2, . . . , 𝑛,

de maneira que quanto menor o valor dessa função, mais a fatorização indicada previa-mente (ℛ ≈ 𝑈𝑉 𝑇 ) será adequada.

A 𝑖-ésima linha, 𝜐𝑖 = (𝜐𝑖1, . . . , 𝜐𝑖𝑝)𝑇 , de 𝑈 é denominada “fator do usuário” econtém 𝑝 entradas correspondendo às afinidades do usuário 𝑖 em relação aos 𝑝 conceitos(fatores) na matriz de avaliações. Similarmente, cada coluna, 𝜈𝑗 = (𝜈𝑗1, . . . , 𝜈𝑗𝑝)𝑇 , de 𝑉refere-se como “fator do item” e representa a afinidade do 𝑗-ésimo item de acordo com os𝑝 conceitos. A Figura 3 exemplifica uma matriz de avaliações de 𝑚 = 13 usuários para𝑛 = 5 filmes com 𝑝 = 2 conceitos.

Figura 3 – Fatorização de Matrizes.

Note que os filmes podem ser decompostos em gêneros de terror e ficção científica.Além disso, observe que os cinco primeiros usuários tendem a gostar mais de filmes deterror comparados aos filmes de ficção científica, bem como os usuários de seis a nove seinteressam mais pelo gênero de ficção científica e o restante não tem preferência específica.

Page 28: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 17

Assim, a matriz pode ser dividida em outras duas matrizes, em que na primeira mostraa relação dos usuários com os genêros e, na segunda, exibe o vínculo dos filmes com cadaconceito.

Da definição da Equação (2.1), percebe-se que cada avaliação 𝑟𝑖𝑗 em ℛ pode serrepresentada, de forma aproximada, como um produto escalar do 𝑖-ésimo fator do usuárioe 𝑗-ésimo fator do item descrito como:

𝑟𝑖𝑗 ≈ 𝜐𝑇𝑖 𝜈𝑗. (2.2)

Como os fatores latentes 𝜐𝑖 e 𝜈𝑗 podem ser vistos como afinidades dos usuáriosou itens para os 𝑝 diferentes conceitos (Aggarwal, 2016), então pode-se expressar a Equa-ção (2.2) por:

𝑟𝑖𝑗 ≈𝑝∑

𝑠=1𝜐𝑖𝑠 × 𝜈𝑗𝑠

=𝑝∑

𝑠=1(Afinidade do 𝑖-ésimo usuário ao conceito 𝑠) × (Afinidade do 𝑗-ésimo item ao conceito 𝑠).

Por exemplo, de acordo com a Figura 3, os dois conceitos apontados se referem aosgenêros de terror e ficção científica. Logo,

𝑟𝑖𝑗 ≈ (Afinidade do 𝑖-ésimo usuário ao terror) × (Afinidade do 𝑖-ésimo usuário à ficção científica)

× (Afinidade do 𝑗-ésimo item ao terror) × (Afinidade do 𝑗-ésimo item à ficção científica).

Apesar de ter sido mostrado um exemplo com interpretação dos conceitos, nãoexiste essa compreensão na maioria das situações aplicáveis ao mundo real. De fato, aescolha do número ideal de conceitos está em maior parte relacionada ao tamanho dadimensão viável em relação aos recursos computacionais disponíveis. Mais informaçõesserão detalhadas posteriormente nessa dissertação.

Decomposição de Valores Singulares

Decomposição de Valores Singulares (SVD, sigla do inglês) é um método de fatori-zação de matrizes em que as colunas de 𝑈 e 𝑉 são restringidas para serem mutualmenteortogonais (Aggarwal, 2016). Essa abordagem tem o benefício de que os conceitos po-dem ser totalmente não correlacionados. Admita o caso em que se dispõe de uma matrizcompletamente especificada. Pode-se fatorizar a matriz de avaliações ℛ usando um SVDtruncado de avaliação 𝑝 ≪ min{𝑚,𝑛} (supondo que a matriz ℛ seja de posto completo)da seguinte maneira:

ℛ = 𝑄𝑝Σ𝑝𝑆𝑇𝑝 ,

em que 𝑄𝑝,Σ𝑝 e 𝑆𝑇𝑝 são matrizes de tamanho 𝑚× 𝑝, 𝑝× 𝑝 e 𝑛× 𝑝, respectivamente.

As matrizes 𝑄𝑝 e 𝑆𝑝 contém os 𝑝 maiores autovetores de ℛℛ𝑇 e ℛ𝑇ℛ respectiva-mente, e a matriz diagonal Σ𝑝 contém os 𝑝 autovalores. Os autovetores possuem informa-ções sobre as direções das correlações item-item (ou usuário-usuário) sobre as avaliações

Page 29: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 18

e, consequentemente, fornecem a habilidade de representar cada usuário (ou item) em umnúmero reduzido de dimensões (Aggarwal, 2016).

A matriz diagonal Σ𝑝 pode ser incorporada nos fatores dos usuários 𝑄𝑝 ou nosfatores dos itens 𝑆𝑝. Por convenção:

𝑈 = 𝑄𝑝Σ𝑝 e 𝑉 = 𝑆𝑇𝑝 .

Seja a soma de quadrados dos resíduos definida por:

𝑆(𝑈, 𝑉 ) = 12

𝑚∑𝑖=1

𝑛∑𝑗=1

I𝑖𝑗𝑒2𝑖𝑗 = 1

2

𝑚∑𝑖=1

𝑛∑𝑗=1

I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇

𝑖 𝜈𝑗)2,

em que I𝑖𝑗 é a variável indicadora sendo igual a 1 se o usuário 𝑖 avaliou o item 𝑗 e 0caso contrário. Desse modo, a função objetivo pode ser formulada como um problema deotimização sobre as matrizes 𝑈 e 𝑉 tal que:

min(𝑈,𝑉 ) [𝑆(𝑈, 𝑉 )] , (2.3)

restrito a: ⎧⎨⎩ Colunas de U são mutualmente ortogonais; eColunas de V são mutualmente ortogonais.

Assim, a Equação (2.3) está explicada pela introdução de uma variável indicadora,uma vez que as matrizes são esparsas e, para os ajustes, só serão consideradas as avaliaçõesde usuários e itens observados. Essa discussão será aperfeiçoada por outras perspectivasencontradas na literatura e servirão de base para a geração de uma metodologia inéditapara essa dissertação.

Como o cenário descrito anteriormente trabalha com matrizes integralmente obser-vadas, a aplicação de um processo iterativo é computacionalmente dispendioso: na ordemde 𝑂(𝑚2𝑛+𝑚𝑛2 + 𝑛3) para uma matriz 𝑚× 𝑛 (Huffel, Vandewalle e Haegemans, 1987).Então, essa abordagem pode ser modificada para um problema de otimização com re-gularização (Aggarwal, 2016; Shen e Huang, 2008). Esse tratamento tem a vantagem deevitar o sobreajuste dos dados adicionando um viés ao modelo, favorecendo simplicidadeao contrário de complexidade. Assim, a incorporação da penalização é dada por:

min(𝑈,𝑉 )

⎡⎣𝑆(𝑈, 𝑉 ) + 𝜆𝜐

2

𝑚∑𝑖=1

‖ 𝜐𝑖 ‖2Fro +𝜆𝜈

2

𝑛∑𝑗=1

‖ 𝜈𝑗 ‖2Fro

⎤⎦ , (2.4)

restrito a: ⎧⎨⎩ Colunas de U são mutualmente ortogonais; eColunas de V são mutualmente ortogonais.

Essa expressão indica que além das restrições de 𝑈 e 𝑉 para vetores ortogonais,agora ainda inclui duas componentes de penalização. Isso se transforma em um problema

Page 30: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 19

complicado de se solucionar sem métodos apropriados de otimização (Bertsekas, 1999).Nessa condição, é relevante explorar outros tratamentos mais tangíveis para minimizaçãoda função objetivo. Note que existe a possibilidade de decompor as matrizes 𝑈 e 𝑉 sema restrição de ortogonalidade porque, nesta dissertação, o interesse não está, em princí-pio, em ortogonalidade e sua interpretabilidade. A finalidade é simplesmente decompora matriz ℛ e reduzir sua dimensão. Nesse caso, a modelagem utiliza a mesma ideia daEquação (2.4), mas sem impor a condição de ortogonalidade.

Vale destacar que as rotações ortogonais assumem que os fatores extraídos nãoapresentam correlações entre si. No entanto, esse pressuposto é raramente obtido emocorrências na vida real (Damásio, 2012). Sendo assim, é interessante utilizar outro tipode rotação que tenha essa característica desejável, como é o caso das rotações oblíquas.Elas permitem que os fatores sejam correlacionados entre si, diferentemente dos métodosortogonais, e não delimitam a interação entre os fatores por suposição. Portanto, se osfatores não forem correlacionados, os resultados atingidos através das rotações oblíquasserão bastante similares aos resultados das rotações ortogonais.

Fatorização Probabilística de Matrizes

Seja ℛ = [𝑟𝑖𝑗] a matriz 𝑚 × 𝑛 de avaliações dos usuários-itens, em que 𝑚 é onúmero de usuários, 𝑛 é o número de itens e 𝑟𝑖𝑗 é a avaliação do i-ésimo usuário para oitem 𝑗. Considere, igualmente, que 𝑈 ∈ R𝑝×𝑚 e 𝑉 ∈ R𝑝×𝑛 são as matrizes abarcando osfatores do usuário e do item, respectivamente. A fatorização probabilística de matrizes(PMF, sigla do inglês), proposta por Salakhutdinov e Mnih (2008b), é um modelo linearprobabilístico com erros observados normais, em que a distribuição de ℛ condicional a 𝑈e 𝑉 (função de verossimilhança) e as distribuições a priori sobre 𝑈 e 𝑉 são dadas por:

𝑝(ℛ|𝑈, 𝑉, 𝛼) =𝑚∏𝑖=1

𝑛∏𝑗=1

[𝜑1(𝑟𝑖𝑗|𝜐𝑇

𝑖 𝜈𝑗, 𝛼−1)

]I𝑖𝑗

, (2.5)

𝑝(𝑈 |𝛼𝜐) =𝑚∏𝑖=1

𝜑𝑝(𝜐𝑖|0, 𝛼−1𝜐 I),

𝑝(𝑉 |𝛼𝜈) =𝑛∏𝑗=1

𝜑𝑝(𝜈𝑗|0, 𝛼−1𝜈 I),

em que I𝑖𝑗 é a variável indicadora sendo igual a 1 se o usuário 𝑖 avaliou o item 𝑗 e 0 casocontrário e 𝜑𝑝(·|𝜇,Ω−1) denota a função de densidade de um vetor aleatório com distri-buição normal com vetor de médias 𝜇 e matriz de precisão Ω, para 𝑝 = 1, . . . ,min{𝑚,𝑛}.De forma equivalente, pode-se representar por (·|𝜇,Ω) ∼ 𝒩𝑝(𝜇,Ω−1).

Note que a estrutura do modelo assume que todas as componentes de 𝑈 , e deforma análoga as de 𝑉 , são independentes a priori com a mesma estrutura de precisãocontrolada por 𝛼−1

𝜐 (e 𝛼−1𝜈 ).

Page 31: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 20

Assim, o aprendizado neste modelo é atribuído maximizando a log-posteriori con-dicional sobre os fatores dos usuários e dos itens com hiperparâmetros (𝛼, 𝛼𝜐, 𝛼𝜈) fixos:

ln 𝑝(𝑈, 𝑉 |𝑅,𝛼, 𝛼𝜐, 𝛼𝜈) = ln 𝑝(𝑅|𝑈, 𝑉, 𝛼) + ln 𝑝(𝑈 |𝛼𝜐) + ln 𝑝(𝑉 |𝛼𝜈) + 𝐶

= −𝛼

2

𝑚∑𝑖=1

𝑛∑𝑗=1

I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2 − 𝛼𝜐

2

𝑚∑𝑖=1

𝜐𝑇𝑖 𝜐𝑖 − 𝛼𝜈

2

𝑛∑𝑗=1

𝜈𝑇𝑗 𝜈𝑗

− 12

⎡⎣⎛⎝ 𝑚∑𝑖=1

𝑛∑𝑗=1

I𝑖𝑗

⎞⎠ ln𝛼−1 +𝑚𝑝 ln𝛼−1𝜐 + 𝑛𝑝 ln𝛼−1

𝜈

⎤⎦+ 𝐶,

em que 𝐶 e a última parcela da expressão são constantes não dependentes de 𝑈 e de 𝑉 .

Conforme Salakhutdinov e Mnih (2008b) e Salakhutdinov e Mnih (2008a), maxi-mizando essa expressão é equivalente a minimizar a soma dos quadrados dos erros dafunção objetivo com termos de regularização quadráticos dados na Equação (2.4) em que𝜆𝜐 = 𝛼𝜐

𝛼e 𝜆𝜈 = 𝛼𝜈

𝛼.

Note que esse modelo pode ser visto como uma extensão probabilística do modelode decomposição de valores singulares (SVD). Todavia, uma desvatangem do SVD é queele só trabalha com matrizes totalmente observadas e suas variações frequentemente apre-sentam sobreajuste (overfitting) devido a um grande conjunto de dados esparsos (Lim eTeh, 2007) caso não sejam aplicadas penalizações. Dessa forma, a finalidade dos autoresao apresentar o PMF é o de oferecer um algoritmo que atue adequadamente em gran-des conjuntos de dados esparsos e desbalanceados. Entretanto, seu principal problemaé o ajustamento manual dos parâmetros de regularização 𝜆𝜐 e 𝜆𝜈 para o controle dacomplexidade do modelo.

Os autores, ao invés de utilizarem um modelo normal simples (que pode fazerpredições fora da variação dos dados de avaliações), decidiram alterar o produto entre osvetores de características dos usuários e dos filmes aplicando uma função logística expressapor 𝑓(𝑥) = 1

1+exp(−𝑥) , limitando a abrangência das predições em:

𝑝(ℛ|𝑈, 𝑉, 𝛼) =𝑚∏𝑖=1

𝑛∏𝑗=1

[𝜑1(𝑟𝑖𝑗|𝑓(𝜐𝑇

𝑖 𝜈𝑗), 𝛼−1)]I𝑖𝑗

. (2.6)

Projetaram-se, ainda, as avaliações de 1, . . . , 𝐻 (sendo 𝐻 o valor máximo dasavaliações dos usuários) para o intervalo [0, 1] usando a função 𝑔(𝑥) = 𝑥−1

𝐻−1 com o propósitode que o alcance dos valores das avaliações válidas correspondessem ao alcance que apredição de seus modelos fizessem.

Então, o modelo proposto (PMF) é baseado em uma aproximação para dadostransformados em uma escala [0,1]. É importante realçar que as transformações dos dadossão um passo da modelagem e, o modelo em si, é uma aproximação para estes dadostransformados.

Page 32: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 21

Fatorização Probabilística Bayesiana de Matrizes

O modelo PMF, descrito na seção anterior, possui a incoveniência de não ter regu-lagem automática dos parâmetros 𝜆𝜐, 𝜆𝜈 e 𝛼. Nesse caso, é interessante empregar outrametodologia capaz de ajustar automaticamente a complexidade do modelo com uma téc-nica totalmente bayesiana. Esse método é chamado de fatorização probabilística bayesianade matrizes (BPMF, sigla do inglês), apresentado por Salakhutdinov e Mnih (2008a), emque se utiliza a mesma função de verossimilhança proposta pelo PMF na Equação (2.5),porém com distribuições a priori normais sobre as matrizes do fator do usuário, 𝑈 , e dofator do item, 𝑉 , expressas por:

𝑝(𝑈 |𝜇𝜐,Λ𝜐) =𝑚∏𝑖=1

𝜑𝑝(𝜐𝑖|𝜇𝜐,Λ−1𝜐 ),

𝑝(𝑉 |𝜇𝜈 ,Λ𝜈) =𝑛∏𝑗=1

𝜑𝑝(𝜈𝑗|𝜇𝜈 ,Λ−1𝜈 ).

A mais notável distinção dessa proposta para o modelo anterior (PMF) é a genera-lização, permitindo que as componentes do vetor 𝜐𝑖 (e também 𝜈𝑗) sejam correlacionadas,através de uma matriz de precisão completa (matriz de covariância cheia) e tenham mé-dias a priori diferentes de zero. Contudo, vale ressaltar que a estrutura de covariâncias éa mesma entre as colunas de 𝑈 e de 𝑉 , respectivamente. Isto é, assume-se que a prioridos usuários (e também dos itens) podem ser representados com estruturas latentes decovariâncias fixas.

Além disso, os autores atribuíram distribuições a priori Normal-Wishart para osparâmetros dos usuários Θ𝜐 = {𝜇𝜐,Λ𝜐} e os parâmetros dos itens Θ𝜈 = {𝜇𝜈 ,Λ𝜈} como:

𝑝(Θ𝜐|Θ0) = 𝑝(𝜇𝜐|Λ𝜐)𝑝(Λ𝜐)

= 𝜑𝑝(𝜇𝜐|𝑎𝜐, (𝑏𝜐Λ𝜐)−1)𝜔(Λ𝜐|𝐶𝜐, 𝑑𝜐),

𝑝(Θ𝜈 |Θ0) = 𝑝(𝜇𝜈 |Λ𝜈)𝑝(Λ𝜈)

= 𝜑𝑝(𝜇𝜈 |𝑎𝜈 , (𝑏𝜈Λ𝜈)−1)𝜔(Λ𝜈 |𝐶𝜈 , 𝑑𝜈).

Admite-se 𝜔 como sendo a função de densidade de uma matriz aleatória comdistribuição Wishart com 𝜓0 graus de liberdade e uma matriz de escala W0 (𝑝 × 𝑝)(Gamerman e Lopes, 2006) tal que:

𝜔(Λ|W0, 𝜓0) = 1𝐶

|Λ|(𝜓0−𝑝−1)/2 exp(

−12tr(W−1

0 Λ)),

em que 𝐶 é uma constante de normalização e tr(·) é o traço de uma matriz. Analogamente,pode-se expressar por (Λ|W0, 𝜓0) ∼ 𝒲(W0, 𝜓0).

Page 33: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 22

Logo, a distribuição preditiva da avaliação ℛ* = [𝑟*𝑖𝑗] para o 𝑖-ésimo usuário que

avaliou o item 𝑗 é obtida ao marginalizar os parâmetros do modelo:

𝑝(𝑟*𝑖𝑗|ℛ,Θ0) =

∫ ∫𝑝(𝑟*

𝑖𝑗|𝜐𝑖,𝜈𝑗)𝑝(𝑈, 𝑉 |ℛ,Θ𝜐,Θ𝜈) ×

× 𝑝(Θ𝜐,Θ𝜈 |Θ0)𝑑{𝑈, 𝑉 }𝑑{Θ𝜐,Θ𝜈}. (2.7)

Uma vez que o valor exato dessa distribuição preditiva é analiticamente incalcu-lável devido à complexidade da posteriori, necessita-se de aproximações inferenciais. Emvirtude disso, Salakhutdinov e Mnih (2008a) utilizaram os métodos de Monte Carlo viacadeias de Markov (MCMC, sigla do inglês), mais especificamente, a amostragem de Gibbs(Gamerman e Lopes, 2006).

Basicamente, os métodos de MCMC usam a aproximação de Monte Carlo para adistribuição preditiva da Equação (2.7) expressa por:

𝑝(𝑟*𝑖𝑗|ℛ,Θ0) ≈ 1

𝐾

𝐾∑𝑘=1

𝑝(𝑟*𝑖𝑗|𝜐

(𝑘)𝑖 ,𝜈

(𝑘)𝑗 ),

em que as amostras de {𝜐(𝑘)𝑖 ,𝜈

(𝑘)𝑗 } são geradas a partir de distribuições condicionais

completas dos valores correntes de todas as variáveis (amostragem de Gibbs).

A escolha desse artifício está relacionada ao uso de distribuições normais paraos fatores do usuário e do item, visto que suas respectivas distribuições condicionaiscompletas, dado os valores do hiperparâmetro Θ0 e da matriz ℛ são, também, normais(demonstrações nos Apêndices A.2 e A.3):

∙ Condicional completa para 𝜐𝑖

𝑝(𝜐𝑖|ℛ, 𝑉,Θ𝜐, 𝛼) ∼ 𝒩 (𝜇*𝜐𝑖, [Λ*

𝜐𝑖]−1),

em que1:

Λ*𝜐𝑖

= Λ𝜐 + 𝛼𝑛∑𝑗=1

I𝑖𝑗[𝜈𝑗𝜈𝑇𝑗 ]

𝜇*𝜐𝑖

= [Λ*𝜐𝑖

]−1

⎛⎝Λ𝜐𝜇𝜐 + 𝛼𝑛∑𝑗=1

I𝑖𝑗[𝜈𝑗𝑟𝑖𝑗]⎞⎠ .

1 Erro corrigido do artigo original.

Page 34: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 23

∙ Condicional completa para 𝜈𝑗

𝑝(𝜈𝑗|ℛ, 𝑈,Θ𝜈 , 𝛼) ∼ 𝒩 (𝜇*𝜈𝑗, [Λ*

𝜈𝑗]−1)

em que2:

Λ*𝜈𝑗

= Λ𝜈 + 𝛼𝑚∑𝑖=1

I𝑖𝑗[𝜐𝑖𝜐𝑇𝑖 ]

𝜇*𝑗 = [Λ*

𝜈𝑗]−1

(Λ𝜈𝜇𝜈 + 𝛼

𝑚∑𝑖=1

I𝑖𝑗[𝜐𝑖𝑟𝑖𝑗]).

Destaca-se que a matriz 𝑈 pode ser fatorizada no produto das distribuições con-dicionais dos fatores do usuário, 𝜐𝑖, e a matriz 𝑉 pode ser fatorizada no produto dasdistribuições condicionais dos fatores do item, 𝜈𝑗:

𝑝(𝑈 |ℛ, 𝑉,Θ𝜐) =𝑚∏𝑖=1

𝑝(𝜐𝑖|ℛ, 𝑉,Θ𝜐),

𝑝(𝑉 |ℛ, 𝑈,Θ𝜈) =𝑛∏𝑗=1

𝑝(𝜈𝑗|ℛ, 𝑈,Θ𝜈).

A distribuição condicional dos parâmetros (𝜇𝜐,𝜇𝜈 ,Λ𝜐,Λ𝜈) é dada pela distribui-ção Normal-Wishart (demonstrações nos Apêndices A.4 e A.5):

∙ Condicional completa para (𝜇𝜐,Λ𝜐)

𝑝(𝜇𝜐,Λ𝜐|𝑈,Θ0) ∼ 𝒩 𝒲(𝑎*𝜐, [𝑏*

𝜐Λ𝜐]−1 ,𝐶*𝜐, 𝑑

*𝜐),

em que2:

𝑏*𝜐 = 𝑏𝜐 +𝑚, 𝑑*

𝜐 = 𝑑𝜐 +𝑚, 𝑎*𝜐 = 1

𝑏*𝜐

(𝑚𝜐 + 𝑏𝜐𝑎𝜐),

Q𝜐 =𝑚∑𝑖=1

(𝜐𝑖 − 𝜐)(𝜐𝑖 − 𝜐)𝑇 , Q𝑎 = 𝑚𝑏𝜐

𝑏*𝜐

(𝑎𝜐 − 𝜐)(𝑎𝜐 − 𝜐)𝑇

[𝐶*𝜐]−1 = 𝐶−1

𝜐 + Q𝜐 + Q𝑎, 𝜐 = 1𝑚

𝑚∑𝑖=1

𝜐𝑖.

∙ Condicional completa para (𝜇𝜈 ,Λ𝜈)

𝑝(𝜇𝜈 ,Λ𝜈 |𝑉,Θ0) ∼ 𝒩 𝒲(𝑎*𝜈 , [𝑏*

𝜈Λ𝜈 ]−1 ,𝐶*𝜈 , 𝑑

*𝜈),

em que2:

𝑏*𝜈 = 𝑏𝜈 + 𝑛, 𝑑*

𝜈 = 𝑑𝜈 + 𝑛, 𝑎*𝜈 = 1

𝑏*𝜈

(𝑛𝜈 + 𝑏𝜈𝑎𝜈),

Q𝜈 =𝑛∑𝑗=1

(𝜈𝑗 − 𝜈)(𝜈𝑗 − 𝜈)𝑇 , Q𝑎 = 𝑛𝑏𝜈

𝑏*𝜈

(𝑎𝜈 − 𝜈)(𝑎𝜈 − 𝜈)𝑇

[𝐶*𝜈 ]−1 = 𝐶−1

𝜈 + Q𝜈 + Q𝑎, 𝜈 = 1𝑛

𝑛∑𝑗=1

𝜈𝑗.

2 Erro corrigido do artigo original.

Page 35: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 24

Assim, a amostragem de Gibbs é definida nos seguintes passos (Salakhutdinov eMnih, 2008a):

1. Inicialize os parâmetros do modelo {𝜐(1),𝜈(1)};

2. Para 𝑘 = 1, . . . , 𝐾:

∙ Amostre dos parâmetros:

Θ(𝑘)𝜐 ∼ 𝑝(Θ𝜐|𝜐(𝑘),Θ0)

Θ(𝑘)𝜈 ∼ 𝑝(Θ𝜈 |𝜈(𝑘),Θ0);

∙ para cada 𝑖 = 1, . . . ,𝑚, amostre dos fatores dos usuários em paralelo:

𝜐(𝑘+1)𝑖 ∼ 𝑝(𝜐𝑖|ℛ,𝜈(𝑘),Θ(𝑘)

𝜐 ); e

∙ para cada 𝑗 = 1, . . . , 𝑛, amostre dos fatores dos itens em paralelo:

𝜈(𝑘+1)𝑗 ∼ 𝑝(𝜈𝑗|ℛ,𝜐(𝑘),Θ(𝑘)

𝜈 ).

Sendo 𝐾 definido como o número de iterações da amostragem de Gibbs que in-clui o período de aquecimento. Uma amostra de tamanho 𝐿 (𝐿 < 𝐾) é tomada após aconvergência do algoritmo.

Hiperparâmetro 𝛼

Na metodologia de fatorização probabilística bayesiana de matrizes, os autores de-nominam 𝛼 como sendo o erro de precisão das observações, fixando no valor 2. Entretanto,pode-se aplicar uma priori a esse parâmetro e acrescentá-lo na amostragem de Gibbs paraestimação. Atribui-se:

𝑝(𝛼|𝑎𝛼, 𝑏𝛼) = 𝛾(𝛼|𝑎𝛼, 𝑏𝛼).

Assume-se 𝛾 como a função de densidade de uma variável aleatória com distribuiçãogama com parâmetros de forma, 𝑎0, e de taxa, 𝑏𝛼 tal que:

𝛾(𝛼|𝑎𝛼, 𝑏𝛼) = 𝑏𝑎𝛼𝛼 𝛼

𝑎𝛼−1

Γ(𝑎𝛼) exp (−𝑏𝛼𝛼) , 𝛼 > 0,

em que Γ é a função gama. Similarmente, pode-se denotar por (𝛼|𝑎𝛼, 𝑏𝛼) ∼ 𝒢(𝑎𝛼, 𝑏𝛼).

Logo, a distribuição condicional de 𝛼 sobre todos os parâmetros é dada por (de-monstração no Apêndice A.1):

𝑝(𝛼|𝑈, 𝑉, ℛ) ∼ 𝒢

⎛⎝𝑁

2 + 𝑎𝛼,12

𝑚∑𝑖=1

𝑛∑𝑗=1

I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2 + 𝑏𝛼

⎞⎠ ,

em que 𝑁 =∑𝑚

𝑖=1

∑𝑛

𝑗=1I𝑖𝑗.

Page 36: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 25

2.5. Modelo Bayesiano Heterocedástico de Fatoriza-ção Probabilística de Matrizes

No procedimento bayesiano de fatorização probabilística de matrizes, os autoresexploram o fato dos fatores dos usuários (e dos itens) poderem ser correlacionados, porémadmitem que a variância para todos os usuários (e para todos os itens) são iguais. Issosugere que não é especulado que há discrepâncias entre as avaliações dos usuários e dositens. Por exemplo, no caso dos usuários, não é considerado que um usuário poderia atri-buir avaliações mantidas na escala entre 1 e 2 e um segundo usuário poderia condicionarsuas avaliações somente variando entre 2 a 5. Já na situação dos itens, se o item foi muitobem avaliado, ele poderia ser qualificado apenas a partir de 4, enquanto um elementomuito mal avaliado, poderia ficar exclusivamente na escala de 1 a 3.

Para um tratamento mais geral, propõe-se o modelo bayesiano heterocedástico defatorização probabilística de matrizes (MH), que é dado pela extensão do BPMF acres-cendo um parâmetro 𝜆𝜐 para cada usuário e 𝜆𝜈 para cada item, com cada um dessesparâmetros com distribuição qui-quadrada com 𝜅𝜐 e 𝜅𝜈 graus de liberdade, respectiva-mente. Este novo modelo é inédito e criado exclusivamente como contribuição para essadissertação e será apresentado a seguir:

𝑝(ℛ|𝑈, 𝑉, 𝛼) =𝑚∏𝑖=1

𝑛∏𝑗=1

[𝜑1(𝑟𝑖𝑗|𝜐𝑇

𝑖 𝜈𝑗, 𝛼−1)

]I𝑖𝑗

,

𝑝(𝑈 |𝜇𝜐,Λ𝜐, 𝜆𝜐𝑖) =

𝑚∏𝑖=1

𝜑𝑝(𝜐𝑖|𝜇𝜐, [𝜆𝜐𝑖Λ𝜐]−1),

𝑝(𝑉 |𝜇𝜈 ,Λ𝜈 , 𝜆𝜈𝑗) =

𝑛∏𝑗=1

𝜑𝑝(𝜈𝑗|𝜇𝜈 , [𝜆𝜈𝑗Λ𝜈 ]−1),

𝑝(𝛼|𝑎𝛼, 𝑏𝛼) = 𝛾(𝛼|𝑎𝛼, 𝑏𝛼).

Vale ressaltar que nesta modelagem mais geral já incluímos uma priori para oparâmetro 𝛼 e, consequentemente, toda análise a posteriori.

Além disso, atribui-se distribuição a priori gama para os parâmetros dos usuários,𝜆𝜐𝑖

, e dos itens, 𝜆𝜈𝑗, da mesma forma que uma priori gama para 𝜅𝜐 e 𝜅𝜈 referentes aos

parâmetros de taxa e de forma da distribuição gama de 𝜆𝜐𝑖e 𝜆𝜈𝑗

, respectivamente:

𝑝(𝜆𝜐|𝜅𝜐) =𝑚∏𝑖=1

𝑝(𝜆𝜐𝑖|𝜅𝜐)

=𝑚∏𝑖=1

[𝛾(𝜆𝜐𝑖

𝜅𝜐

2 ,𝜅𝜐

2 )],

𝑝(𝜅𝜐) = 𝛾(𝜅𝜐|𝑎𝜅𝜐 , 𝑏𝜅𝜐).

Page 37: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 26

𝑝(𝜆𝜈 |𝜅𝜈) =𝑛∏𝑗=1

𝑝(𝜆𝜈𝑗|𝜅𝜈)

=𝑛∏𝑗=1

[𝛾(𝜆𝜈𝑗

𝜅𝜈

2 ,𝜅𝜈

2 )],

𝑝(𝜅𝜈) = 𝛾(𝜅𝜈 |𝑎𝜅𝜈 , 𝑏𝜅𝜈 ).

Um importante destaque é que a modelagem desta forma considera que os 𝜆𝜐𝑖e 𝜆𝜈𝑗

são variáveis auxiliares na mistura de escala da normal com a gama para se obter a distri-buição marginal t-Student. Contudo, a análise a posteriori para cada 𝜆𝜐𝑖

ou 𝜆𝜈𝑗permitiria

avaliar os vetores latentes 𝜐𝑖 e 𝜈𝑗 que tem maior ou menor variabilidade comparado aosdemais. Apesar disto, não será feito este tipo de análise específica nesta dissertação, poiso objetivo central é a melhor previsão segundo o critério do erro quadrático médio.

As distribuições a priori Normal-Wishart para os parâmetros dos usuários Θ𝜐 ={𝜇𝜐,Λ𝜐} e os parâmetros dos itens Θ𝜈 = {𝜇𝜈 ,Λ𝜈} foram atualizadas para:

𝑝(Θ𝜐|Θ0) = 𝑝(𝜇𝜐|Λ𝜐)𝑝(Λ𝜐)

= 𝜑𝑝(𝜇𝜐|𝑎𝜐, (𝑏𝜐Λ𝜐)−1)𝜔(Λ𝜐|𝐶𝜐, 𝑑𝜐),

𝑝(Θ𝜈 |Θ0) = 𝑝(𝜇𝜈 |Λ𝜈)𝑝(Λ𝜈)

= 𝜑𝑝(𝜇𝜈 |𝑎𝜈 , (𝑏𝜈Λ𝜈)−1)𝜔(Λ𝜈 |𝐶𝜈 , 𝑑𝜈).

Logo, a distribuição preditiva da avaliação ℛ* = [𝑟*𝑖𝑗] para o 𝑖-ésimo usuário que

avaliou o item 𝑗 é obtida ao marginalizar os parâmetros do modelo:

𝑝(𝑟*𝑖𝑗|ℛ,Θ0) =

∫ ∫𝑝(𝑟*

𝑖𝑗|𝜐𝑖,𝜈𝑗, 𝛼)𝑝(𝑈, 𝑉 |ℛ,Θ𝜐,Θ𝜈 ,𝜆𝜐,𝜆𝜈) ×

× 𝑝(Θ𝜐,Θ𝜈 |Θ0)𝑝(𝛼)𝑝(𝜆𝜐,𝜆𝜈) ×

× 𝑑{𝑈, 𝑉 }𝑑{Θ𝜐,Θ𝜈}𝑑{𝛼}𝑑{𝜆𝜐,𝜆𝜈}.

Por fim, serão descritos a seguir as condicionais completas para o modelo hetero-cedástico (demonstrações nos Apêndices B.1, B.2 e B.3):

∙ Condicional completa para 𝛼

𝑝(𝛼|ℛ, 𝑈, 𝑉, 𝑎𝛼, 𝑏𝛼) ∼ 𝒢(𝑁

2 + 𝑎𝛼,12∑𝑚

𝑖=1

∑𝑛

𝑗=1I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2 + 𝑏𝛼

),

em que 𝑁 =∑𝑚

𝑖=1

∑𝑛

𝑗=1I𝑖𝑗.

Page 38: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 27

∙ Condicional completa para 𝜐𝑖

𝑝(𝜐𝑖|ℛ, 𝑉,Θ𝜐, 𝛼) ∼ 𝒩 (𝜇*𝜐𝑖, [Λ*

𝜐𝑖]−1),

em que:

Λ⋆𝜐𝑖

= 𝜆𝜐𝑖Λ𝜐 + 𝛼

∑𝑛

𝑗=1I𝑖𝑗[𝜈𝑗𝜈𝑇𝑗 ]

𝜇⋆𝜐𝑖

=[Λ⋆

𝜐𝑖

]−1(𝜆𝜐𝑖

Λ𝜐𝜇𝜐 + 𝛼∑𝑛

𝑗=1I𝑖𝑗[𝑟𝑖𝑗𝜈𝑗]).

∙ Condicional completa para 𝜈𝑗

𝑝(𝜈𝑗|ℛ, 𝑈,Θ𝜈 , 𝛼) ∼ 𝒩 (𝜇*𝜈𝑗, [Λ*

𝜈𝑗]−1)

em que:

Λ⋆𝜈𝑗

= 𝜆𝜈𝑗Λ𝜈 + 𝛼

∑𝑚

𝑖=1I𝑖𝑗[𝜐𝑖𝜐𝑇𝑖 ]

𝜇⋆𝜈𝑗

=[Λ⋆

𝜈𝑗

]−1 (𝜆𝜈𝑗

Λ𝜈𝜇𝜈 + 𝛼∑𝑚

𝑖=1I𝑖𝑗[𝑟𝑖𝑗𝜐𝑖]).

A distribuição condicional dos parâmetros Θ𝜐 e Θ𝜈 é dada pela distribuição Normal-Wishart (demonstrações nos Apêndices B.4 e B.5):

∙ Condicional completa para (𝜇𝜐,Λ𝜐)

𝑝(𝜇𝜐,Λ𝜐|𝑈,Θ0) ∼ 𝒩 𝒲(𝑎⋆𝜐, [𝑏⋆𝜐Λ𝜐]−1,𝐶⋆𝜐, 𝑑

⋆𝜐),

em que:

𝑏⋆𝜐 = 𝑏𝜐 +𝑚��𝜐, 𝑑⋆𝜐 = 𝑑𝜐 +𝑚, 𝑎⋆𝜐 = 1𝑏⋆𝜐

(𝑚��𝜐�� + 𝑏𝜐𝑎𝜐),

Q𝜐 =∑𝑚

𝑖=1𝜆𝜐𝑗(𝜐𝑖 − ��)(𝜐𝑖 − ��)𝑇 , Q𝑎 = 𝑚��𝜐𝑏𝜐

𝑏⋆𝜐(𝑎𝜐 − ��)(𝑎𝜐 − ��)𝑇 ,

[𝐶*𝜐]−1 = 𝐶−1

𝜐 + Q𝜐 + Q𝑎, ��𝜐 = 1𝑚

∑𝑚

𝑖=1𝜆𝜐𝑖, �� = 1

𝑚��𝜐

∑𝑚

𝑖=1𝜆𝜐𝑖𝜐𝑖.

∙ Condicional completa para (𝜇𝜈 ,Λ𝜈)

𝑝(𝜇𝜈 ,Λ𝜈 |𝑉,Θ0) ∼ 𝒩 𝒲(𝑎⋆𝜈 , [𝑏⋆𝜈Λ𝜈 ]−1,𝐶⋆𝜈 , 𝑑

⋆𝜈),

em que:

𝑏⋆𝜈 = 𝑏𝜈 + 𝑛��𝜈 , 𝑑⋆𝜈 = 𝑑𝜈 + 𝑛, 𝑎⋆𝜈 = 1𝑏⋆𝜈

(𝑛��𝜈 �� + 𝑏𝜈𝑎𝜈),

Q𝜈 =∑𝑛

𝑗=1𝜆𝜈𝑗(𝜈𝑗 − ��)(𝜈𝑗 − ��)𝑇 , Q𝑎 = 𝑛��𝜈𝑏𝜈

𝑏⋆𝜈(𝑎𝜈 − ��)(𝑎𝜈 − ��)𝑇 ,

[𝐶*𝜈 ]−1 = 𝐶−1

𝜈 + Q𝜈 + Q𝑎, ��𝜈 = 1𝑛

∑𝑛

𝑗=1𝜆𝜈𝑗, �� = 1

𝑛��𝜈

∑𝑛

𝑗=1𝜆𝜈𝑗𝜈𝑗.

Page 39: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 28

Da mesma forma que as distribuições a prioris, as distribuições condicionais com-pletas de 𝜆𝜐𝑖

e de 𝜆𝜈𝑗também são gamas (demonstrações nos Apêndices B.6 e B.7):

∙ Condicional completa para 𝜆𝜐𝑖

𝜆𝜐𝑖∼ 𝒢

(𝐷𝜐 + 𝜅𝜐

2 ,12[𝜅𝜐 + (𝜐𝑖 − 𝜇𝜐)𝑇Λ𝜐(𝜐𝑖 − 𝜇𝜐)

]),

em que 𝐷𝜐 é a dimensão da matriz 𝐶𝜐.

∙ Condicional completa para 𝜆𝜈𝑗

𝜆𝜈𝑗∼ 𝒢

(𝐷𝜈 + 𝜅𝜈

2 ,12[𝜅𝜈 + (𝜈𝑗 − 𝜇𝜈)𝑇Λ𝜈(𝜈𝑗 − 𝜇𝜈)

]),

em que 𝐷𝜈 é a dimensão da matriz 𝐶𝜈 .

Por último, tem-se as distribuições das condicionais completas de 𝜅𝜐 e 𝜅𝜈 . Nestecaso específico, não é possível identificar nenhuma distribuição conhecida (demonstraçõesnos Apêndices B.8 e B.9). Logo,

∙ Condicional completa para 𝜅𝜐

𝑝(𝜅𝜐|.) ∝ exp{

−𝜅𝜐

2

[∑𝑚

𝑖=1(𝜆𝜐𝑖 − log(𝜆𝜐𝑖)) − 𝑚 log

(𝜅𝜐

2

)]− 𝑚 log Γ

(𝜅𝜐

2

)}𝑝(𝜅𝜐).

∙ Condicional completa para 𝜅𝜈

𝑝(𝜅𝜈 |.) ∝ exp{

−𝜅𝜈

2

[∑𝑛

𝑗=1(𝜆𝜈,𝑗 − log(𝜆𝜈𝑗 )) − 𝑛 log

(𝜅𝜈

2

)]− 𝑛 log Γ

(𝜅𝜈

2

)}𝑝(𝜅𝜈).

A amostragem de Gibbs, de forma mais geral, contempla a modelagem dos grausde liberdade 𝜅𝜐 e 𝜅𝜈 . As condicionais completas não têm forma conhecida e são fáceisde amostrar por outros métodos numéricos, como por exemplo o Metropolis-Hastings,que devem ser utilizados para gerar valores destas condicionais. Entretanto, o objetivo ésimplesmente modelar a heterocedasticidade e obter um erro quadrático médio de previ-são menor sem que o algoritmo demore demais. Deste modo, escolheu-se, neste primeiromomento, fixar os graus de liberdade em um número entre 3 e 10, que será explicitadonas aplicações.

Assim, a amostragem de Gibbs é definida nos seguintes passos:

1. Inicialize os parâmetros do modelo {𝜐(1),𝜈(1)};

2. Para 𝑘 = 1, . . . , 𝐾:

Page 40: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 29

∙ amostre dos parâmetros:

𝜅(𝑘)𝜐 ∼ 𝑝(𝜅𝜐|𝜆(𝑘)

𝜐 )

𝜅(𝑘)𝜈 ∼ 𝑝(𝜅𝜈 |𝜆(𝑘)

𝜈 )

𝛼(𝑘) ∼ 𝑝(𝛼|ℛ,𝜐(𝑘),𝜈(𝑘))

Θ(𝑘)𝜐 ∼ 𝑝(Θ𝜐|𝜐(𝑘), 𝜆(𝑘)

𝜐 ,Θ0)

Θ(𝑘)𝜈 ∼ 𝑝(Θ𝜈 |𝜈(𝑘), 𝜆(𝑘)

𝜈 ,Θ0);

∙ para cada 𝑖 = 1, . . . ,𝑚, amostre dos fatores dos usuários em paralelo:

𝜆(𝑘+1)𝜐𝑖

∼ 𝑝(𝜆𝜐𝑖|𝜐(𝑘),Θ(𝑘)

𝜐 , 𝜅(𝑘)𝜐 )

𝜐(𝑘+1)𝑖 ∼ 𝑝(𝜐𝑖|ℛ,𝜈(𝑘),Θ(𝑘)

𝜐 , 𝛼(𝑘)); e

∙ para cada 𝑗 = 1, . . . , 𝑛, amostre dos fatores dos itens em paralelo:

𝜆(𝑘+1)𝜈𝑗

∼ 𝑝(𝜆𝜈𝑗|𝜈(𝑘),Θ(𝑘)

𝜈 , 𝜅(𝑘)𝜈 )

𝜈(𝑘+1)𝑗 ∼ 𝑝(𝜈𝑗|ℛ,𝜐(𝑘),Θ(𝑘)

𝜈 , 𝛼(𝑘)).

2.6. Métodos Iterativos de Otimização

Métodos iterativos de otimização são usados a todo momento em aprendizagemautomática. Nesta dissertação, será detalhado o método de gradiente descendente (GD),especificamente o método de gradiente descendente estocástico (GDE): uma extensãodo anterior, que será usado para otimização da fatorização probabilística de matrizes(PMF). No exemplo de regressão linear simples, o método de gradiente descendente sóé recomendado quando temos dados com muitas dimensões, pois a inversão de matrizescomo X𝑇X começam a ser inviáveis pelo tempo computacional requerido. Já pelo GDE,utiliza-se aprendizagem por lotes (chamados de mini-batches) que propicia uma aplicaçãoem dados na casa de um milhão de observações, situação praticamente impossível pelosmétodos comumente empregados na literatura que fazem uso da base completa.

No caso de uma regressão linear, ela pode ser expressa pela equação y = X𝛽 + 𝜀 eo problema a ser resolvido está em encontrar o valor �� que minimiza o quadrado da normado vetor ��, ou seja, quer-se minimizar a soma dos quadrados dos resíduos. O pensamentopor trás desses métodos iterativos de otimização é em começar com um chute razoávelpara o valor de �� e, assim, atualiza-os na direção certa até que se chegue no valor mínimoda função custo (nesse caso, ||��||2). A função custo, referida anteriormente como “funçãoobjetivo”, basicamente expressa quão bem o método está em fazer predições. Note quea função custo, ||��||2, é uma função de �� (observe que o problema é semelhante quando

Page 41: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 30

aplicado ao problema de fatorização de matrizes, em que se minimiza ||ℛ − 𝑈𝑉 𝑇 ||2):

𝐿(��) = ||��||2

=𝑁∑𝑖=1

𝜀𝑖2

=𝑁∑𝑖=1

(𝑦𝑖 − 𝑦𝑖)2

=𝑁∑𝑖=1

(𝑦𝑖 − 𝑥𝑇𝑖 ��)2

= (y − X𝛽)𝑇 (y − X𝛽).

Essa função custo é uma função convexa e tem derivada segunda, que asseguradizer que o único ponto de mínimo que ela tem é um mínimo global. Em razão de 𝑓 serdiferenciável e convexa, uma condição necessária e suficiente para um ponto 𝑥* ser ótimoestá em:

▽𝑓(𝑥*) = 0, (2.8)

em que ▽ representa o símbolo de gradiente (o vetor de derivadas primeiras parciais)(Boyd e Vandenberghe, 2004).

Segue que:

▽𝐿(𝛽) = ▽(y − X𝛽)𝑇 (y − X𝛽)

= ▽(𝛽𝑇X𝑇X𝛽 − 𝛽𝑇X𝑇Xy − y𝑇X𝛽 + y𝑇y

)= ▽tr

(𝛽𝑇X𝑇X𝛽 − 𝛽𝑇X𝑇y − y𝑇X𝛽 + y𝑇y

)= ▽

(tr(𝛽𝑇X𝑇X𝛽) − 2tr(y𝑇X𝛽)

)= ▽

(X𝑇X𝛽 + X𝑇X𝛽 − 2X𝑇y

)= 2X𝑇X𝛽 − 2X𝑇y,

em que tr(·) é o traço da matriz.

Portanto, o único ponto crítico de 𝐿 é caracterizado por:

�� = (X𝑇X)−1X𝑇y. (2.9)

Destaca-se que essa solução só é possível se a matriz X for de posto completo. Istoimplica que X𝑇X é de posto completo que, por sua vez, resulta que o determinante deX𝑇X é diferente de zero ou, equivalentemente, que a matriz X𝑇X possui uma inversa.

Nesse simples exemplo se obteve �� analiticamente, porém em muitos problemasisso não será mais possível. Sendo assim, utilizar métodos de otimização que auxiliem aencontrar o ponto crítico de forma mais factível serão extremamente úteis.

Page 42: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 31

2.6.1. Interpretação e Otimização por Gradiente Descendente

O gradiente descendente é um método para encontrar o mínimo de uma funçãoconvexa de maneira iterativa. De forma intuitiva, imagine o cenário da Figura 4 e que, nomomento, se está no ponto em verde. O objetivo está em alcançar o mínimo da função𝑦 = 𝑥2, ou seja, chegar no ponto vermelho com a restrição de, na posição atual, não serpossível visualizá-lo. As próximas etapas no processo de otimização devem ser: escolhera direção a seguir no gráfico (subir ou descer) e selecionar o tamanho do movimento nosentido escolhido.

Figura 4 – Exemplo de Otimização por Gradiente Descendente.

A ideia da derivada, retirada de teorias matemáticas, auxilia nesse processo, pois écalculada como a inclinação do gráfico em um ponto específico. Essa inclinação é descritadesenhando uma linha tangente ao gráfico no ponto. Portanto, calculando essa linha tan-gente, pode-se computar a direção correta para atingir o mínimo, movendo-se na direçãoda descida mais íngreme, conforme definido pelo negativo desse resultado.

O algoritmo iterativo do gradiente descendente se resume em:

1. escolha um chute inicital para 𝛽(0) ∈ R𝑝;

2. para cada 𝑘 = 0, 1, . . . , repita:

𝛽(𝑘+1) = 𝛽(𝑘) − 𝜖▽ 𝐿(𝛽(𝑘));

3. pare quando atingir a convergência.

É comum na literatura encontrar autores descrevendo o processo de otimização porgradiente descendente fazendo uma analogia com uma bolinha de gude sendo solta emuma tigela: a bolinha descerá na direção mais inclinada e eventualmente parará no pontomais baixo da tigela. Os parâmetros �� caminham rapidamente em direção ao ponto de

Page 43: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 32

mínimo e, quanto mais se aproximam dele, passam a caminhar cada vez mais devagar.Esse fato acontece pois o tamanho de cada passo em direção ao mínimo será o valor dogradiente naquele ponto multiplicado pela constante 𝜖, visto que quanto mais próximo seestá do ponto de mínimo, menor a inclinação da função custo e, consequentemente, menoro gradiente que acarreta em um menor passo dado em direção ao mínimo.

Essa constante 𝜖 é chamada de “taxa de aprendizagem” e define o tamanho dospassos dados em direção ao mínimo a cada iteração. Se esses passos forem muito pequenos,precisar-se-ão de muitas iterações de treino (chamados de épocas), ou seja, o método ficaextremamente lento. Em contrapartida, colocando-se uma taxa de aprendizagem muitoalta, há um risco de se afastar em demasia do ponto de mínimo, resultando em um métodoque não converge. Esse fato acontece quando o passo dado for tão grande que ultrapassaráo ponto de mínimo e chegará em um ponto na função custo mais alto do que o da épocaanterior. Nesse novo ponto, o gradiente terá um valor superior, aumentando ainda maiso passo seguinte e, em consequência, impelindo-se para ainda mais afastado do ponto demínimo a cada época.

Para a definição do número de épocas de treinamento (ajuste), é importante verifi-car a cada atualização de 𝛽 o valor da função de custo e analisar se o resultado já chegouem uma região de convergência. Como, nesta dissertação, a função custo é convexa, nãoé tão relevante em que ponto se inicia ��. Deste modo, se os outros dois hiperparâme-tros (número de épocas e, principalmente, 𝜖) forem regulados corretamente, o algoritmoconverge para o ponto de mínimo independentemente do ponto inicial.

2.6.2. Interpretação e Otimização por Gradiente DescendenteEstocástico: Aprendizado em Mini-Batches

Considere a seguinte situação: quer-se minimizar uma função custo para uma basede dados na ordem de milhões (os dados da Netflix, por exemplo). Nessa circustância,carregar e iterar todas essas informações ao mesmo tempo no gradiente descendente e per-correr todos os milhões de dados para computá-lo dando somente um passo na otimizaçãoserá computacionalmente inviável, já que cada passo por gradiente descendente demorarálinearmente mais conforme mais dados estão disponíveis. Neste caso, é interessante pensarem maneiras de se utilizar somente uma parcela menor dos dados para cada iteração.

Primeiramente, imagine a conjuntura de que apesar dos dados possuírem milhõesde observações, existam apenas poucas variações dentro deles. Sendo assim, não é ne-cessário desfrutar de todos os dados para computar o gradiente e é possível conseguiruma aproximação aceitável meramente utilizando um pedaço dos dados. Isso é plausívelao retirar amostras semelhantes e computar uma estimação do gradiente usando apenasesses elementos, chamados de mini-batches ou mini-lotes. Portanto, cada atualização dos

Page 44: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 33

parâmetros será feita com base nessa estimação do gradiente e o processo será repetidocom o próximo lote dos dados. Esse conceito que fundamenta o gradiente descendenteestocástico.

Uma vez que no GDE é usado somente com uma parcela dos dados, precisam-se demais iterações de treino (épocas) para chegar próximo do mínimo. Todavia, esse ponto ne-gativo é compensado pelo fato de que cada iteração demora menos tempo que no métodode gradiente descendente já que, com o GDE, o tempo de treinamento é constante e nãose altera com a quantidade de dados. Além disso, pode-se incluir mais um hiperparâme-tro definido como a velocidade em direção ao mínimo, ou seja, na hipótese da direção dadescida ser a mesma, isto é, se o caminho percorrido pelo gradiente estiver correto, o gra-diente acelerará (ao contrário do GD, que diminui). Esse novo hiperparâmetro, denotadopor 𝜂, será denominado “momento”.

Logo, com o gradiente descendente estocástico serão introduzidos mais três hiper-parâmetros que devem ser ajustados manualmente: o tamanho do batch (𝜌), o número debatches (𝜙) e o momento (𝜂). Normalmente, quanto maior o lote, maior a precisão dospassos em direção ao mínimo global, porém cada época se torna mais lenta. O númerode batches para cada época é importante para criar melhores estimativas do gradiente.Por fim, em relação ao momento, a velocidade do gradiente é relevante para acelerar oprocesso de minimização da função custo, porém deve-se ter cuidado de ajustar esseshiperparâmetros pelas características de cada dado analisado.

Considere o par (𝑋, 𝑦) amostrado do treinamento. O algoritmo iterativo do gradi-ente descendente estocástico se resume em:

1. escolha um chute inicital para 𝛽(0) ∈ R𝑝;

2. para cada 𝑘 = 0, 1, . . . repita:

a) amostre mini-batches dos dados de treinamento;

b) para cada mini-batch em cada 𝑏 = 0, 1, . . . , 𝜙 repita:

𝜃(𝑏+1) = 𝜂(𝑏)𝜃(𝑏) + 𝜖▽ 𝐿(𝛽(𝑏), 𝑋, 𝑦)1𝜌

𝛽(𝑏+1) = 𝛽(𝑏) − 𝜃(𝑏+1);

c) compute o erro da função objetivo;

3. pare quando atingir a convergência.

A interpretação desse processo iterativo é simples: 𝜂(𝑏)𝜃(𝑏)−𝜖▽𝐿(𝛽(𝑏), 𝑋, 𝑦) atualizaa velocidade do gradiente e o termo específico 𝜖 ▽ 𝐿(𝛽(𝑏), 𝑋, 𝑦) incorpora a informaçãoda inclinação da descida do mesmo. Já 𝜂(𝑏)𝜃(𝑏) funciona como um atrito que diminui a

Page 45: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 2. Sistemas de Recomendação 34

velocidade em uma taxa 1 − 𝜂 da velocidade anterior (como uma aderência que impede aaceleração).

Vale a ressalva que a reamostragem no GDE é o componente estocástico do algo-rítmo. Por conseguinte, essa propriedade faz com que o traço da função objetivo não sejamais suave, o que inibe o uso de critérios de parada baseados em diferenças de valoresconsecutivos. À vista disso, o uso mais frequente de interrupção do método é executaro algoritmo até exceder o número máximo de épocas que garanta suficiente proximidadecom o ponto ótimo da função.

Page 46: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

35

Capítulo 3

Aplicações

Neste capítulo, serão apresentados os resultados obtidos pelos modelos discutidosanteriormente e pela metodologia proposta, por meio da comparação do desempenho emdados reais subdivididos em dados de treinamento e de teste, bem como uma explicaçãoprecisa de como serão esses dados e de que maneira serão considerados. Primeiramente,na Seção 3.1, serão explicados como são os dados escolhidos no intuito de se obter ummelhor entendimento de como foram utilizados para a comparação dos modelos de fatori-zação probabilística de matrizes (PMF), fatorização probabilística bayesiana de matrizes(BPMF) e o modelo bayesiano heterocedástico de fatorização probabilística de matrizes(MH). Por fim, será exposto um resumo aprofundado, por meios visuais, sobre tudo quefoi debatido e identificado nesta dissertação (Seção 3.2).

3.1. Dados Reais

Nesta seção, serão apresentadas as análises para dois conjuntos de dados (Netflix naSeção 3.1.1 e MovieLens na Seção 3.1.2) devido a sua importância para a área e tambémpara efeitos de comparação com o que já foi feito na literatura.

3.1.1. Dados da Netflix

A premiação da Netflix1 foi uma competição organizada pela Netflix2, um serviçode venda de vídeos de filmes, séries de televisão, etc via a rede mundial de computadores,para criar o sistema de recomendação o mais preciso possível que prevesse preferênciasde filmes baseados em informações de avaliações de usuários no passado. Os dados detreinamento, recolhidos da Netflix, apresentam uma coletânea de mais de 100 milhões1 https://www.netflixprize.com2 https://www.netflix.com/br

Page 47: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 3. Aplicações 36

de avaliações, variando em uma escala de 1 a 5, de uma amostra aleatória de 480.189usuários anônimos e 17.700 filmes no período de outubro de 1998 a dezembro de 2005, re-presentando a distribuição de todas as avaliações da Netflix obtidas durante esse período.Providenciou-se, ainda, aproximadamente 1,5 milhão de avaliações para os dados de va-lidação como material suplementar para a preparação do modelo. O objetivo é prever, apartir desse banco de dados, as avaliações inéditas de cerca de 3 milhões de usuários sobreo mesmo conjunto de filmes. A performance do modelo poderia ser adquirida subtemendoas avaliações preditas para a própria Netflix, obtendo-se a raiz do erro quadrático médio(REQM) com um conjunto desconhecido de 50% dos dados de teste. Como comparação,a Netflix forneceu o escore nos dados de teste de seu exclusivo sistema de recomendação,treinado nesses mesmos dados, atingindo a marca de 0,9514 (quanto menor o REQM,melhor). Como esse pareamento de resultados não é mais possível, a amostra fornecidacomo treinamento será subdividida em duas categorias: dados de treinamento e de teste(75% para treinamento e 25% para teste) para avaliação da eficiência dos modelos. Odesafio está em obter bons resultados nesse dado, visto que ele é extremamente esparso,sendo aproximadamente 99% das entradas sendo constituídas de zeros.

3.1.2. Dados do MovieLens

O grupo de pesquisa GroupLens3 coletou e disponibilizou conjuntos de dados deavaliações do sítio MovieLens4 (Harper e Konstan, 2015), uma organização não-comercialpersonalizada em recomendação de filmes, para contribuir com pesquisadores no estudode diversas possibilidades de recomendação. Os dados foram coletados de variados perío-dos de tempo, dependendo do tamanho dos dados. Nesta dissertação, serão utilizados osdados contendo mais de 10 milhões de avaliações, variando em uma escala de 1 a 5, de10.681 filmes avaliados por uma amostra aleatória de 71.567 usuários desconhecidos. Odesempenho do modelo pode ser obtido através da divisão pré-definida dos dados em 2pares de amostras, disponibilizados anteriormente pelo sítio, em que para cada par foramseparados exatamente 10 avaliações por usuário nos dados de teste, para a utilização datécnica de validação cruzada, em que os resultados serão dados pela média da raiz dos er-ros quadráticos médios das duas amostras (os dados de teste são disjuntos). O desafio estáem encontrar bons resultados nesse dado, já que ele é muito esparso: aproximadamente98, 7% das entradas no conjunto de treinamento são zeros.3 https://grouplens.org4 https://grouplens.org/datasets/movielens

Page 48: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 3. Aplicações 37

3.2. Resultados

Nesta seção serão apresentados todos os resultados aplicados aos dados da Netflixe do MovieLens. Os valores padrão para os conceitos 𝑝 testados em todos os procedimen-tos serão 5, 10, 20 e 30. Os valores de 𝑝 representam a dimensão latente e, provavelmente,quanto maior o valor de 𝑝 melhor seria a previsão com o custo computacional mais ele-vado. A dificuldade está em encontrar uma dimensão “ótima” que dá um compromissoentre qualidade de ajuste e velocidade de treinamento. Além disso, por motivos visuais etécnicos, todos os modelos foram treinados em 200 iterações/épocas mesmo, em algumassituações, podendo ter atingido a convergência anteriormente e, além disso, a escala detodos os gráficos estão no intervalo de 0,60 até 1,10 para uma melhor comparação detodas as diferentes possibilidades experimentadas. Já no resultado tabelar, considerou-separa comparação o último valor do REQM na iteração 200, visto que todos os modeloscontinuam diminuindo seus erros mesmo após o limite estipulado e se queria uma basesemelhante para as três metodologias.

Em relação às características computacionais, a linguagem de programação utili-zada foi Python5 na versão 3.7.3 em todos os algoritmos com o uso do sistema operacionalGNU/Linux na distribuição Linux Mint, versão 19.3 Tricia6 com um equipamento comprocessador i5 8400, 48GB DDR4 2400MHz de memória, ssd 480+240/ HD 1TB com umafonte de thermaltake smart 600W. O tempo máximo de processamento para os dados daNetflix foi de 8 horas para o PMF (em todos os valores de 𝑝) e de aproximadamente 36horas para cada valor diferente de 𝑝 nos dados do BPMF e MH e, ainda, de 4,5 horaspara o PMF nos dados do MovieLens e cerca de 16 horas para a soma total do tempo detodas as situações experimentadas nos dados do MovieLens para o BPMF e para o MH.

3.2.1. Resultados para os Dados da Netflix

Com o intuito de se comparar os métodos de fatorização probabilística de matri-zes, fatorização probabilística bayesiana de matrizes e o modelo bayesiano heterocedásticode fatorização probabilística de matrizes, utilizou-se a mesma divisão entre os dados detreinamento e de teste para os dados da Netflix utilizando uma semente na amostragem(divisão pré-definida pelo algoritmo de repartição de dados nas linguagens de programa-ção) igual a 42 (a linguagem Python usa Mersenne-Twister como gerador de númerospseudo-aleatórios), em que foi estabelecido 75% para os dados de treinamento e 25%para os dados de teste. O objetivo dessa separação é treinar o modelo com os dados detreinamento ajustando os hiperparâmetros de cada modelo, se necessário, ao verificar seuREQM e, por fim, comparar todos os resultados pelos mesmos dados de teste. Em seguida,5 https://www.python.org6 https://linuxmint.com

Page 49: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 3. Aplicações 38

serão apontados passo a passo todos os hiperparâmetros definidos para cada metodologiae seus resultados.

Fatorização Probabilística de Matrizes

No PMF, utilizou-se praticamente os mesmos hiperparâmetros empregados porSalakhutdinov e Mnih (2008b) cujo objetivo será apenas confirmar, de certa forma, osresultados obtidos por ele. Apesar disso, haverá certas discordâncias, visto que os dadosnão são os mesmos (não há mais como obter o REQM dos dados de teste originais daNetflix) e, assim, o propósito está em servir-se dessa metodologia para a comparaçãoentre os métodos aqui referenciados. Sendo assim, os mini-batches serão definidos detamanhos 100.000, a taxa de aprendizagem 𝜖 será igual a 50 (valores menores não derambons resultados), o momento do gradiente 𝜂 igual a 0,9, o número de batches em cadaépoca será igual a 9 e a matriz 𝜃 (matriz multiplicadora de 𝜂 no gradiente descendenteestocástico) foi constituída preliminarmente de zeros. Além disso, definiu-se o parâmetrode regularização 𝐿2 como sendo 0,005. Os valores iniciais para as matrizes de usuários, 𝑈 ,e de itens, 𝑉 , foram de 0,1 multiplicados por valores aleatoriamente amostrados de umadistribuição uniforme no intervalo [0, 1).

Fatorização Probabilística Bayesiana de Matrizes

No BPMF, também foram usados os mesmos parâmetros empregados por Salakhut-dinov e Mnih (2008a). Por conveniência, eles assumiram Θ0 = {𝑎𝜐,𝑎𝜈 , 𝑏𝜐, 𝑏𝜈 , 𝑑𝜐, 𝑑𝜈 ,𝐶𝜐,𝐶𝜈},𝑎𝜐 = 𝑎𝜈 = 0, 𝑏𝜐 = 𝑏𝜈 = 2, 𝑑𝜐 = 𝑑𝜈 = 𝑝 e 𝐶𝜐 = 𝐶𝜈 como sendo a matriz identidade. Alémdisso, como no artigo dos autores, o valor de 𝛼 foi fixado como sendo 2 (um MCMC para 𝛼foi aplicado na metodologia MH). Por fim, os valores iniciais para as matrizes de usuários,𝑈 , e de itens, 𝑉 , foram de 0,1 multiplicados por valores aleatoriamente amostrados deuma distribuição uniforme no intervalo [0, 1).

Modelo Bayesiano Heterocedástico de Fatorização Probabilística de Matrizes

Nesse modelo, construído especialmente para essa dissertação, assumiram-se Θ0 ={𝑎𝜐,𝑎𝜈 , 𝑏𝜐, 𝑏𝜈 , 𝑑𝜐, 𝑑𝜈 ,𝐶𝜐,𝐶𝜈}, 𝑎𝜐 = 𝑎𝜈 = 0, 𝑏𝜐 = 𝑏𝜈 = 2, 𝑑𝜐 = 𝑑𝜈 = 𝑝 e 𝐶𝜐 = 𝐶𝜈 comosendo a matriz identidade. Já os hiperparâmetros da distribuição condicional completapara 𝛼 foram definidos como 𝑎𝛼 = 𝑏𝛼 = 0, 1. Como as distribuições condicionais completaspara 𝜅𝜐 e 𝜅𝜈 não têm formatos conhecidos, optou-se por fixar esses parâmetros no valor𝜅𝜐 = 𝜅𝜈 = 5. Por fim, os valores iniciais para as matrizes de usuários, 𝑈 , e de itens, 𝑉 ,foram de 0,1 multiplicados por valores aleatoriamente amostrados de uma distribuiçãouniforme no intervalo [0, 1), da mesma forma que nas outras metodologias.

Page 50: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 3. Aplicações 39

Resultados Gráficos e Tabelas

A Tabela 1 a seguir apresenta os resultados do REQM dos métodos de PMF,BPMF e MH para os dados da Netflix.

Tabela 1 – Resultados Obtidos do PMF, BPMF e MH Aplicados aos Dados da Netflix.

pREQM

Dados de Treino Dados de TestePMF BPMF MH PMF BPMF MH

5 0,86437 0,83444 0,83479 0,88641 0,86308 0,8630310 0,84463 0,80257 0,79989 0,87549 0,84422 0,8431220 0,83354 0,77742 0,77969 0,87320 0,83292 0,8355630 0,82512 0,76882 0,74663 0,87194 0,82968 0,83151

Através da Tabela 1, constata-se que ao elevar 𝑝, a raiz do erro quadrático médiodiminui para os três modelos e ajustes (PMF, BPMF e MH), indicando que a hipótesede que aumentando o valor de 𝑝, diminui-se o REQM é verdadeira. Repare que, ainda,os resultados dos modelos BPMF e MH ficaram muito similares, com uma intercalaçãoentre qual foi o melhor modelo de acordo com o valor pré-definido para 𝑝 e, ainda assim,variando apenas na teceira casa decimal do REQM. Nessa situação, afirma-se que ambosos modelos são adequados para os dados da Netflix.

Observe que para os dados de treinamento o MH teve resultados muito similares aoBPMF para todos os valores de 𝑝, tendo seu melhor resultado em 𝑝 = 30. Esse resultado jáera esperado porque o MH é mais robusto (visto que é baseado na distribuição t-Studentcom 5 graus de liberdade e pode acomodar melhor possíveis discrepâncias nos dados) queo BPMF nos ajustes (treinamento). Contudo, o modelo MH baseado na distribuição t-Student com 5 graus de liberdade tem maior variância teórica que um modelo normal doqual está baseado o BPMF. Assim, esperava-se também que o BPMF tivesse um REQMum pouco melhor que o MH para os dados de teste, porém ressaltando que as diferençastalvez sejam não significativas. Portanto, a generalização do BPMF para o MH pode trazermelhorias de ajustes em termos de REQM ao possível custo de um aumento no tempocomputacional.

Note que esses dois modelos (BPMF e MH) ficaram muito melhores se comparadosao PMF, que é mais trabalhoso de se encontrar os melhores resultados, pois deve-se testardiversas combinações de hiperparâmetros e, além disso, treiná-lo com 𝑝 de valor superiornão trouxe efeitos tão evidentes nos dados de teste, confrontando-os com o REQM doBPMF e do MH. Portanto, conclui-se que os melhores resultados ao se comparar todosos modelos foram o do BPMF e do MH para 𝑝 = 30, tanto nos dados de treinamento,

Page 51: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 3. Aplicações 40

quanto nos dados de teste. O pior resultado ficou com o PMF no cenário em que 𝑝 = 5,com nenhum dos REQM chegando abaixo dos 0, 86.

A Figura 5 a seguir apresenta os resultados da curva de aprendizagem do modelode fatorização probabilística de matrizes (PMF) para os dados da Netflix com diferentesvalores dos conceitos 𝑝.

(a) 𝑝 = 5 (b) 𝑝 = 10

(c) 𝑝 = 20 (d) 𝑝 = 30

Figura 5 – Curvas de Aprendizagem do PMF para os Dados da Netflix em DiferentesValores de 𝑝.

Por meio da Figura 5, percebe-se que, para todas as situações de 𝑝, a técnica su-gerida por Salakhutdinov e Mnih (2008b) ao utilizar um modelo linear probabilístico comerros observados normais para estimar as avaliações dos usuários da Netflix foi apropriada,em virtude do fato de que todos os casos apresentaram uma diminuição do REQM, tantopara os dados de treinamento, quanto para os dados de teste. Constata-se que, todavia,essa metodologia sugerida apresentou uma demora de, certa forma, mais de 25 épocaspara começar a decair seu REQM, que pode significar o motivo de seu valor ainda ficaracima de 0, 80 mesmo após 200 épocas. Repare que, em todas as circunstância de 𝑝, oREQM continua retrocedendo, que pode indicar que com mais épocas poderia se obterum resultado mais razoável para os dados da Netflix.

Page 52: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 3. Aplicações 41

A Figura 6 a seguir mostra os resultados da curva de aprendizagem do modelo defatorização probabilística bayesiana de matrizes (BPMF) para os dados da Netflix comdiferentes valores dos conceitos 𝑝.

(a) 𝑝 = 5 (b) 𝑝 = 10

(c) 𝑝 = 20 (d) 𝑝 = 30

Figura 6 – Curvas de Aprendizagem do BPMF para os Dados da Netflix em DiferentesValores de 𝑝.

Com base na Figura 6, percebe-se que, para todas as situações de 𝑝, o modeloBPMF usado para estimar as avaliações dos usuários da Netflix foi adequada, em razãodo fato de que todos os casos apresentaram uma diminuição do REQM, tanto para osdados de treinamento, quanto para os dados de teste. Verifica-se que, ainda, essa metodo-logia apresentou uma alta taxa de diminuição do seu REQM para as primeiras 25 iterações(diferentemente do PMF) e, após esse número, o seu resultado começa a diminuir somentegradativamente, sendo quase imperceptível notar uma diferença nos dados de teste ao au-mentar o valor de 𝑝 (embora ela exista). Atente-se que em todas as conjunturas de 𝑝,o REQM continua caindo para os dados de treinamento, porém não tão significativa-mente para os dados de teste, assinalando que talvez não seja mesmo necessário continuartreinando o modelo após esse número pré-definido de iterações.

Page 53: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 3. Aplicações 42

A Figura 7 a seguir mostra os resultados da curva de aprendizagem do modelobayesiano heterocedástico de fatorização probabilística de matrizes (MH) para os dadosda Netflix com diferentes valores dos conceitos 𝑝.

(a) 𝑝 = 5 (b) 𝑝 = 10

(c) 𝑝 = 20 (d) 𝑝 = 30

Figura 7 – Curvas de Aprendizagem do MH para os Dados da Netflix em DiferentesValores de 𝑝.

Pela Figura 7, nota-se que, para todas as situações de 𝑝, o modelo MH empregadopara estimar as avaliações dos usuários da Netflix foi propício, visto que em todos oscenários apresentados houve um decrescimento do REQM, tanto para os dados de trei-namento, quanto para os dados de teste. Observe que esse modelo mostra uma alta taxade diminuição do seu REQM para as primeiras 25 iterações, porém com o aumento dovalor de 𝑝, esse tempo de decaimento do REQM começa a tardar, significando que o MHprecisa de mais tempo de inicialização da cadeia que o BPMF. Depois disso, o seu resul-tado começa a decrescer apenas gradativamente, sendo bem tênue perceber uma diferençanos dados de teste ao aumentar o valor de 𝑝 (embora ela esteja presente). Veja que emtodas as situações de 𝑝, o REQM continua caindo para os dados de treinamento, porémnão tão consideravelmente para os dados de teste, assinalando que talvez não seja mesmonecessário continuar treinando o modelo após esse número pré-definido de iterações, efeitosemelhante ao caso do BPMF.

Page 54: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 3. Aplicações 43

3.2.2. Resultados para os Dados do MovieLens

Com o intuito de comparar os métodos de fatorização probabilística de matrizes,fatorização probabilística bayesiana de matrizes e o modelo bayesiano heterocedásticode fatorização probabilística de matrizes, utilizou-se a mesma divisão entre os dados detreinamento e de teste previamente estabelecida e disponibilizada no sítio MovieLens7.A finalidade dessa partição é treinar as metodologias desta dissertação com os dados detreinamento e verificar os resultados com os dados de teste extraindo uma média obtidapelas duas amostras e registrar o REQM. Em seguida, serão apontados passo a passotodos os hiperparâmetros definidos para cada metodologia e seus resultados.

Fatorização Probabilística de Matrizes

No PMF para os dados do MovieLens, utilizou-se de diversos valores introdutóriospara se testar qual o melhor a ser empregado no modelo. Sendo assim, experimentou-seos mini-batches de tamanhos {10.000; 50.000; 100.000}, a taxa de aprendizagem 𝜖 como{0, 05; 0, 1; 1; 5}, o momento do gradiente 𝜂 iguais a {0, 50; 0, 75; 0, 90}, o número de bat-ches em cada época foi pré-definido como sendo 15 e a matriz 𝜃 (matriz multiplicadora de𝜂 no gradiente descendente estocástico) foi constituída preliminarmente de zeros. Alémdisso, avaliou-se o parâmetro de regularização 𝐿2 como sendo do conjunto {0, 005; 0, 01}.Os valores iniciais para as matrizes de usuários, 𝑈 , e de itens, 𝑉 , foram de 0,1 multiplica-dos por valores aleatoriamente amostrados de uma distribuição uniforme no intervalo [0, 1)(como em todos os outros casos nessa dissertação). Consequentemente, 3 × 4 × 3 × 2 = 72possibilidades distintas de hiperparâmetros foram estudadas. Para esses dados, os melho-res resultados alcançados e que serão expostos em seguida foram: mini-batches = 100.000,𝜖 = 5, momento do gradiente = 0,90 e o parâmetro de regularização estabeleceu-se como0,005.

Fatorização Probabilística Bayesiana de Matrizes

Na fatorização probabilística bayesiana de matrizes para os dados do MovieLensforam usados os mesmos hiperparâmetros empregados nos dados da Netflix, sendo eles:Θ0 = {𝑎𝜐,𝑎𝜈 , 𝑏𝜐, 𝑏𝜈 , 𝑑𝜐, 𝑑𝜈 ,𝐶𝜐,𝐶𝜈}, com 𝑎𝜐 = 𝑎𝜈 = 0, 𝑏𝜐 = 𝑏𝜈 = 2, 𝑑𝜐 = 𝑑𝜈 = 𝑝 e𝐶𝜐 = 𝐶𝜈 como sendo a matriz identidade e 𝛼 = 2 (um MCMC para 𝛼 foi aplicado nametodologia MH). Por fim, os valores iniciais para as matrizes de usuários, 𝑈 , e de itens,𝑉 , foram de 0,1 multiplicados por valores aleatoriamente amostrados de uma distribuiçãouniforme no intervalo [0, 1).7 https://grouplens.org/datasets/movielens

Page 55: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 3. Aplicações 44

Modelo Bayesiano Heterocedástico de Fatorização Probabilística de Matrizes

No modelo bayesiano heterocedástico de fatorização probabilística de matrizes paraos dados do MovieLens foram usados os mesmos hiperparâmetros empregados nos dadosda Netflix, sendo eles: Θ0 = {𝑎𝜐,𝑎𝜈 , 𝑏𝜐, 𝑏𝜈 , 𝑑𝜐, 𝑑𝜈 ,𝐶𝜐,𝐶𝜈}, com 𝑎𝜐 = 𝑎𝜈 = 0, 𝑏𝜐 =𝑏𝜈 = 2, 𝑑𝜐 = 𝑑𝜈 = 𝑝 e 𝐶𝜐 = 𝐶𝜈 como sendo a matriz identidade. Os hiperparâmetros dadistribuição condicional completa para 𝛼 foram definidos como 𝑎𝛼 = 𝑏𝛼 = 0, 1. Tambémoptou-se por fixar 𝜅𝜐 e 𝜅𝜈 no valor 𝜅𝜐 = 𝜅𝜈 = 5. Por fim, os valores iniciais para as matrizesde usuários, 𝑈 , e de itens, 𝑉 , foram de 0,1 multiplicados por valores aleatoriamenteamostrados de uma distribuição uniforme no intervalo [0, 1), da mesma forma que nosdados da Netflix.

Resultados Gráficos e Tabelas

A Tabela 2 a seguir apresenta os resultados do REQM dos métodos de PMF,BPMF e MH para os dados do MovieLens.

Tabela 2 – Resultados Obtidos do PMF, BPMF e MH Aplicados aos Dados do MovieLens.

pREQM

Dados de Treino Dados de TestePMF BPMF MH PMF BPMF MH

5 0,82206 0,80454 0,77573 0,91366 0,88389 0,8679710 0,81122 0,79864 0,74128 0,90681 0,87959 0,8550220 0,79992 0,79448 0,72007 0,90157 0,87845 0,8507530 0,79224 0,79162 0,70868 0,89761 0,87432 0,84943

Através da Tabela 2, repara-se que ao elevar 𝑝, a raiz do erro quadrático médiodiminui para os três modelos e ajustes (PMF, BPMF e MH), concluindo que é plausívelfalar que quanto maior o tamanho da dimensão 𝑝, menor o REQM. Além disso, o MHapresentou os melhores resultados para todos os casos estudados nessa dissertação nosdados do MovieLens, sendo seu melhor valor obtido em 𝑝 = 30, tanto nos dados detreinamento, quanto nos dados de teste. Observe que nesse modelo, para os dados detreinamento, todos os valores do REQM são menores que 0,80 e, para os dados de teste,todos os resultados foram bem abaixo de 0,90, com uma diferença significativa entre osdois modelos comparativos. Por construção, o MH é mais robusto que o BPMF e o PMF.Consequentemente, os resultados obtidos indicam que o MH é mais indicado para estesdados pois, possivelmente, existe uma variabilidade maior neles que o MH consegue captarmelhor que o PMF e o BPMF.

Page 56: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 3. Aplicações 45

Note que somente o PMF não obteve todos os resultados abaixo de 0,80, mesmotendo sido testado diversos hiperparâmetros que fossem adequados a esse conjunto dedados e, ainda, não houve consequências tão perceptíveis ao aumentar o valor de 𝑝 quejustificassem o custo computacional. Ademais, destaca-se que o BPMF obteve resultadosintermediários entre o PMF e o MH para todos os cenários analisados, sendo um bommodelo comparativo para estudar outras metodologias adequadas.

A Figura 8 a seguir ilustra os resultados da curva de aprendizagem do modelo defatorização probabilística de matrizes (PMF) para os dados do MovieLens com diferentesvalores dos conceitos 𝑝.

(a) 𝑝 = 5 (b) 𝑝 = 10

(c) 𝑝 = 20 (d) 𝑝 = 30

Figura 8 – Curvas de Aprendizagem do PMF para os Dados do MovieLens em DiferentesValores de 𝑝.

Através da Figura 8, percebe-se que, para todas as situações de 𝑝, utilizar o PMFpara estimar as avaliações dos usuários do Movielens foi acertada, visto que em todosos casos expostos obtiveram uma diminuição do REQM, tanto para os dados de treina-mento, quanto para os dados de teste. Note que esse procedimento teve um decaimentodo REQM praticamente constante após a 25∘ época, tendo uma taxa de decrescimentorelativamente alta no início (diferentemente dos dados da Netflix). Repare que, em todasas circunstâncias de 𝑝, o REQM continua retrocedendo mesmo após as 200 épocas, que

Page 57: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 3. Aplicações 46

pode indicar que com mais iterações poderia se obter um melhor resultado para os dadosdo Movielens.

A Figura 9 a seguir exibe os resultados da curva de aprendizagem do modelo defatorização probabilística bayesiana de matrizes (BPMF) para os dados do MovieLenscom diferentes valores dos conceitos 𝑝.

(a) 𝑝 = 5 (b) 𝑝 = 10

(c) 𝑝 = 20 (d) 𝑝 = 30

Figura 9 – Curvas de Aprendizagem do BPMF para os Dados do MovieLens em DiferentesValores de 𝑝.

Com base na Figura 9, identifica-se que, para todas as situações de 𝑝, o modeloBPMF usado para estimar as avaliações dos usuários do Movielens foi pertinente, uma vezque todos os eventos lograram em obter uma diminuição do REQM, tanto para os dadosde treinamento, quanto para os dados de teste. Constata-se, ainda, que essa metodologiaapresentou uma alta taxa de diminuição do seu REQM para as primeiras 25 iterações e,após isso, o seu resultado começa a abaixar somente aos poucos, sendo pouca a diferençanos resultados do REQM nos dados de teste ao aumentar o valor de 𝑝. Repare que, emtodas as circunstâncias de 𝑝, o REQM continua retrocedendo mesmo após as 200 iterações,que pode indicar que com mais iterações poderia se obter alguma melhora nos resultadospara os dados do Movielens.

Page 58: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 3. Aplicações 47

A Figura 10 a seguir apresenta os resultados da curva de aprendizagem do modelobayesiano heterocedástico de fatorização probabilística de matrizes (MH) para os dadosdo MovieLens com diferentes valores dos conceitos 𝑝.

(a) 𝑝 = 5 (b) 𝑝 = 10

(c) 𝑝 = 20 (d) 𝑝 = 30

Figura 10 – Curvas de Aprendizagem do MH para os Dados do MovieLens em DiferentesValores de 𝑝.

Por intermédio da Figura 10, nota-se que, para todas as situações de 𝑝, o modeloMH, produzido nesta dissertação, foi apropriado para estimar as avaliações dos usuáriosdo Movielens, posto que em todos os cenários apresentados houve um decrescimento doREQM, tanto para os dados de treinamento, quanto para os dados de teste. Observe queesse modelo também apresenta uma alta taxa de diminuição do seu REQM para as pri-meiras 25 iterações, porém com o aumento do valor de 𝑝, esse tempo de decaimento doREQM começa a tardar. Em seguida, o seu resultado começa a decrescer apenas paulati-namente, sendo bem tênue perceber uma diferença nos dados de teste ao aumentar o valorde 𝑝 (bem como nos dados da Netflix). Veja que em todas as situações de 𝑝, o REQMcontinua caindo para os dados de treinamento, porém não tão consideravelmente para osdados de teste, apontando que talvez não seja mesmo necessário continuar treinando omodelo após esse número pré-definido de iterações. Note que essa característica foi similarpara ambos os conjuntos de dados analisados (dados do Movielens e da Netflix).

Page 59: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

48

Capítulo 4

Conclusão

Nesta dissertação, procurou-se criar uma metodologia para a estimação das ava-liações de usuários sobre determinados filmes em que os dados ultrapassam milhões deobservações. Para esse fim, utilizaram-se técnicas de fatores latentes, filtragem colabora-tiva e uma abordagem bayesiana em sistemas de recomendação. Além disso, empregou-seesse novo procedimento em dados reais, tais como os da Netflix e do Movielens para ava-liar se, realmente, esse modelo foi adequado. As análises realizadas consideram os ajustesdos modelos aos dados (de treinamento) assim como a previsão (dados de teste). Essamétrica de comparação dos modelos foi feita através da raiz do erro quadrático médio(REQM) baseado no ajuste (treinamento) e também na previsão (teste).

Esses dados escolhidos foram subdivididos em dados de treinamento e de teste,sendo os dados da Netflix definidos pela separação de 75% para o treinamento e 25%para o teste. Já os dados do Movielens foram retirados do sítio do grupo de pesquisaGroupLens, previamente estabelecidos em uma divisão em 2 pares de amostras, em quepara cada par foram separados exatamente 10 avaliações por usuário nos dados de teste,para a utilização da técnica de validação cruzada, sendo esses dados de teste disjuntos.

Com o intuito de se possuir uma comparação para a metodologia a ser criada,utilizaram-se os métodos de fatorização probabilística de matrizes (PMF) e de fatorizaçãoprobabilística bayesiana de matrizes (BPMF). O modelo bayesiano heterocedástico defatorização probabilística de matrizes (MH) foi produzido através da extensão do BPMFpensando na variação de características individuais de cada usuário para avaliar seusfilmes assistidos. Esse modelo emprega novas prioris a um novo parâmetro 𝜆 que se alterade acordo com os usuários ou os itens.

Constatou-se que os modelos PMF e BPMF possuíram piores resultados para amaioria das análises realizadas neste trabalho, sendo que o REQM do MH, em algunscasos, por exemplo 𝑝 = 20 e 𝑝 = 30, não se mostrou superior (menor em valor) ao BPMFpara os dados da Netflix com pequenas diferenças que talvez sejam estatisticamente não

Page 60: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Capítulo 4. Conclusão 49

significativas. Notou-se, também, que o PMF não obteve nenhum dos resultados paraos dados de teste abaixo de 0, 87 para os dados da Netflix e de 0, 89 para os dados doMovielens em nenhuma das configurações utilizadas nesta dissertação, diferentemente doBPMF e do MH.

Uma limitação importante foi percebida na realização desta dissertação: o grandecusto computacional. Ao aumentar o valor de 𝑝, maior o tempo computacional em todosos métodos, visto que cresce a quantidade de dados a serem contemplados nos modelose, assim, maior o tempo para cada iteração/época. Nesse caso, só foi praticável ser usadauma dimensão até o limite de 𝑝 = 30 para ser possível estudar as diferenças entre asmetodologias exploradas que, de certa forma, não influenciou no potencial dos modelos eem suas conclusões finais.

Finalmente, vale ressaltar que a metodologia proposta nesta dissertação é alta-mente capaz de oferecer uma excepcional precisão para as estimações das avaliações dosusuários tanto nos dados da Netflix, quanto nos dados do Movielens, mesmo eles tendoalta dimensionalidade e apresentando grande quantidade de zeros. Entretanto, há um altocusto computacional para os dados da Netflix, que faz-se necessário um bom equipamentotecnológico para processamento desses dados. Apesar disso, há diversas possibilidades deestudo em possíveis melhorias do MH, bem como utilizar métodos numéricos para amos-trar da distribuição dos parâmetros dos graus de liberdade 𝜅𝜐 e 𝜅𝜈 , explorar uma distri-buição que contemple 𝐾 possíveis resultados aos invés de transformá-los e aproximá-lospela normal (ou t-Student), a aplicação de outras prioris para as variações das avalia-ções dos usuários (e dos itens), verificação do comportamento dessa metodologia paraoutros conjuntos de dados e aumento do número de iterações/época para uma melhorvisualização dos resultados retirando o período de aquecimento.

Page 61: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

50

Referências

AGGARWAL, C. C. Recommender Systems: The Textbook. 1. ed. Estados Unidos:Springer, 2016. ISBN 978-3-319-29657-9. Disponível em: <http://doi.org/10.1007/978-3-319-29659-3>. Citado 6 vezes nas páginas 6, 10, 12, 15, 17 e 18.

BARBIERI, J.; BRAIDA, L. G. A. abd F.; ZIMBRãO, G. Autoencoders andrecommender systems: COFILS approach. Expert Systems with Applications, New York,NY, USA, p. 81–90, 2017. Disponível em: <https://doi.org/10.1016/j.eswa.2017.07.030>.Citado na página 3.

BERTSEKAS, D. P. Nonlinear Programming. USA: Athena Scientific, 1999. ISBN9781886529007. Disponível em: <http://www.athenasc.com/nonlinbook.html>. Citadona página 19.

BOYD, S.; VANDENBERGHE, L. Convex Optimization. 1. ed. New York, NY, USA:Cambridge University Press, 2004. ISBN 978-0-521-83378-3. Citado na página 30.

CANNY, J. Collaborative filtering with privacy via factor analysis. SIGIR ’02Proceedings of the 25th annual international ACM SIGIR conference on Research anddevelopment in information retrieval, p. 238–245, 2002. Disponível em: <http://doi.org-/10.1145/564376.564419>. Citado na página 2.

DAMáSIO, B. F. Uso da análise fatorial exploratória em psicologia. Avaliação Psicológica,Porto Alegre, Brasil, p. 213–228, 2012. Disponível em: <http://pepsic.bvsalud.org/pdf-/avp/v11n2/v11n2a07.pdf>. Citado na página 19.

DEVOOGHT, R.; KOURTELLIS, N.; MANTRACH, A. Dynamic matrix factorizationwith priors on unknown values. KDD ’15 Proceedings of the 21th ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining, 2015. Disponívelem: <http://dx.doi.org/10.1145/2783258.2783346>. Citado na página 3.

GAMERMAN, D.; LOPES, H. F. Markov Chain Monte Carlo: Stochastic Simulationfor Bayesian Inference. New York, NY, USA: Chapman and Hall/CRC, 2006. ISBN9781584885870. Disponível em: <http://doi.org/10.1201/9781482296426>. Citado 2vezes nas páginas 21 e 22.

GEMULLA, R. et al. Large-scale matrix factorization with distributed stochasticgradient descent. KDD ’11 Proceedings of the 17th ACM SIGKDD internationalconference on Knowledge discovery and data mining, p. 69–77, 2011. Disponível em:<http://doi.org/10.1145/2020408.2020426>. Citado na página 3.

Page 62: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Referências 51

HARPER, F. M.; KONSTAN, J. A. The MovieLens datasets: History and context. ACMTrans. Interact. Intell. Syst., ACM, New York, NY, USA, v. 5, n. 4, p. 19:1–19:19, dez.2015. ISSN 2160-6455. Disponível em: <http://doi.acm.org/10.1145/2827872>. Citadona página 36.

HUFFEL, S. V.; VANDEWALLE, J.; HAEGEMANS, A. An efficient and reliablealgorithm for computing the singular subspace of a matrix, associated with its smallestsingular values. Journal of Computational and Applied Mathematics, v. 19, p. 313–330,1987. Disponível em: <http://doi.org/10.1016/0377-0427(87)90201-9>. Citado napágina 18.

KABBUR, S.; NING, X.; KARYPIS, G. FISM: Factored item similarity models for top-Nrecommender systems. KDD ’13 Proceedings of the 19th ACM SIGKDD internationalconference on Knowledge discovery and data mining, p. 659–667, 2013. Disponível em:<http://doi.org/10.1145/2487575.2487589>. Citado na página 3.

LIM, Y. J.; TEH, Y. W. Variational Bayesian approach to movie rating prediction.Proceedings of KDD Cup and Workshop, 01 2007. Disponível em: <http://www.cs-.uic.edu/˜liub/KDD-cup-2007/proceedings/variational-Lim.pdf>. Citado na página20.

MURPHY, K. P. Machine Learning: A Probabilistic Perspective. 1. ed. Inglaterra: TheMIT Press, 2012. ISBN 978-0-262-01802-9. Citado na página 15.

SALAKHUTDINOV, R.; MNIH, A. Bayesian probabilistic matrix factorization usingmarkov chain monte carlo. Proceedings of the 25th International Conference onMachine Learning, Canada, v. 25, p. 880–887, 01 2008. Disponível em: <http:/-/doi.org/10.1145/1390156.1390267>. Citado 5 vezes nas páginas 20, 21, 22, 24e 38.

SALAKHUTDINOV, R.; MNIH, A. Probabilistic matrix factorization. Advances inNeural Information Processing Systems 20, Canada, 2008. Disponível em: <http:/-/papers.nips.cc/paper/3208-probabilistic-matrix-factorization.pdf>. Citado 4 vezes naspáginas 19, 20, 38 e 40.

SHEN, H.; HUANG, J. Z. Sparse principal component analysis via regularized low rankmatrix approximation. Journal of Multivariate Analysis, v. 99, p. 1015–1034, 2008.Disponível em: <http://doi.org/10.1016/j.jmva.2007.06.007>. Citado na página 18.

Shen, J. et al. Style-oriented personalized landmark recommendation. IEEE Transactionson Industrial Electronics, v. 66, n. 12, p. 9768–9776, 2019. Citado na página 4.

XIAN, Z. et al. New collaborative filtering algorithms based on SVD++ and differentialprivacy. Hindawi, China, 2017. Disponível em: <https://doi.org/10.1155/2017/1975719>.Citado na página 3.

Page 63: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Apêndices

Page 64: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

53

Apêndice A

Abordagem Bayesiana para a Fatorização

Probabilística de Matrizes

Suponha que o modelo seja dado por:

𝑟𝑖𝑗 ∼ 𝒩 (𝜐𝑇𝑖 𝜈𝑗, 𝛼

−1), 𝑖 = 1, . . . ,𝑚 e 𝑗 = 1, . . . , 𝑛,

𝜐𝑖 ∼ 𝒩 (𝜇𝜐,Λ−1𝜐 )

𝜈𝑗 ∼ 𝒩 (𝜇𝜈 ,Λ−1𝜈 )

(𝜇𝜐|Λ𝜐) ∼ 𝒩 (𝑎𝜐, [𝑏𝜐Λ𝜐]−1)

Λ𝜐 ∼ 𝒲(𝐶𝜐, 𝑑𝜐)

(𝜇𝜈 |Λ𝜈) ∼ 𝒩 (𝑎𝜈 , [𝑏𝜈Λ𝜈 ]−1)

Λ𝜈 ∼ 𝒲(𝐶𝜈 , 𝑑𝜈)

𝛼 ∼ 𝒢(𝑎𝛼, 𝑏𝛼).

Assim,

𝑝(ℛ|𝑈, 𝑉, 𝛼) =𝑚∏𝑖=1

𝑛∏𝑗=1

[𝜑1(𝑟𝑖𝑗|𝜐𝑇

𝑖 𝜈𝑗, 𝛼−1)

]I𝑖𝑗

𝑝(𝑈 |𝜇𝜐,Λ𝜐) =𝑚∏𝑖=1

𝜑𝑝(𝜐𝑖|𝜇𝜐,Λ−1𝜐 )

𝑝(𝑉 |𝜇𝜈 ,Λ𝜈) =𝑛∏𝑗=1

𝜑𝑝(𝜈𝑗|𝜇𝜈 ,Λ−1𝜈 )

𝑝(𝜇𝜐,Λ𝜐) = 𝑝(𝜇𝜐|Λ𝜐)𝑝(Λ𝜐) = 𝜑𝑝(𝜇𝜐|𝑎𝜐, [𝑏𝜐Λ𝜐]−1)𝜔(Λ𝜐|𝐶𝜐, 𝑑𝜐)

𝑝(𝜇𝜈 ,Λ𝜈) = 𝑝(𝜇𝜈 |Λ𝜈)𝑝(Λ𝜈) = 𝜑𝑝(𝜇𝜈 |𝑎𝜈 , [𝑏𝜈Λ𝜈 ]−1)𝜔(Λ𝜈 |𝐶𝜈 , 𝑑𝜈)

𝑝(𝛼) = 𝑝(𝛼|𝑎𝛼, 𝑏𝛼).

Considere 𝑁 =∑𝑚

𝑖=1

∑𝑛

𝑗=1I𝑖𝑗 o tamanho efetivo da amostra (contando somente osvalores observados).

Page 65: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Apêndice A. Abordagem Bayesiana para a Fatorização Probabilística de Matrizes 54

A.1. Condicional Completa para 𝛼

𝑝(𝛼|.) ∝ 𝑝(ℛ|𝑈, 𝑉, 𝛼)𝑝(𝛼|𝑎𝛼, 𝑏𝛼)

∝ 𝛼𝑁2 exp

{−𝛼

2∑𝑚

𝑖=1

∑𝑛

𝑗=1I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2

}𝛼𝑎𝛼−1 exp {−𝑏𝛼𝛼}

∝ 𝛼(𝑁2 +𝑎𝛼)−1 exp

{−𝛼

2∑𝑚

𝑖=1

∑𝑛

𝑗=1I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2 − 𝑏𝛼𝛼

}∝ 𝛼(𝑁

2 +𝑎𝛼)−1 exp{

−𝛼[12∑𝑚

𝑖=1

∑𝑛

𝑗=1I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2 + 𝑏𝛼

]}

Logo, (𝛼|.) ∼ 𝒢(𝑁2 + 𝑎𝛼,

12∑𝑚

𝑖=1

∑𝑛

𝑗=1I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2 + 𝑏𝛼

).

A.2. Condicional Completa para 𝜐𝑖

𝑃 (𝜐𝑖|.) ∝ 𝑝(ℛ|𝑈, 𝑉, 𝛼)𝑝(𝜐𝑖|𝜇𝜐,Λ𝜐)

∝𝑛∏𝑗=1

[𝜑1(𝑟𝑖𝑗|𝜐𝑇

𝑖 𝜈𝑗, 𝛼−1)

]I𝑖𝑗

𝑝(𝜐𝑖|𝜇𝜐,Λ𝜐)

∝ exp{

−𝛼

2∑𝑛

𝑗=1I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2 − 1

2(𝜐𝑖 − 𝜇𝜐)𝑇Λ𝜐(𝜐𝑖 − 𝜇𝜐)}

Agora, tem-se que:

𝑆𝑄𝜐𝑖= 𝛼

∑𝑛

𝑗=1I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2 + (𝜐𝑖 − 𝜇𝜐)𝑇Λ𝜐(𝜐𝑖 − 𝜇𝜐)

= 𝛼∑𝑛

𝑗=1I𝑖𝑗𝑟2𝑖𝑗 − 2𝛼

∑𝑛

𝑗=1I𝑖𝑗𝑟𝑖𝑗𝜐𝑇𝑖 𝜈𝑗 + 𝛼

∑𝑛

𝑗=1I𝑖𝑗(𝜐𝑇𝑖 𝜈𝑗)2

+ 𝜐𝑇𝑖 Λ𝜐𝜐𝑖 − 2𝜐𝑖Λ𝜐𝜇𝜐 + 𝜇𝑇

𝜐 Λ𝜐𝜇𝜐

= 𝑐1 + 𝜐𝑇𝑖

[Λ𝜐 + 𝛼

∑𝑛

𝑗=1I𝑖𝑗𝜈𝑗𝜈𝑇𝑗

]𝜐𝑖 − 2𝜐𝑇

𝑖

[Λ𝜐𝜇𝜐 + 𝛼

∑𝑛

𝑗=1I𝑖𝑗𝑟𝑖𝑗𝜈𝑗]

= 𝑐1 + 𝜐𝑇𝑖 Λ⋆

𝜐𝑖𝜐𝑖 − 2𝜐𝑇

𝑖 Λ⋆𝜐𝑖

𝜇⋆𝜐

= 𝑐2 + 𝜐𝑇𝑖 Λ⋆

𝜐𝑖𝜐𝑖 − 2𝜐𝑇

𝑖 Λ⋆𝜐𝑖

𝜇⋆𝜐𝑖

+ 𝜇⋆𝑇𝜐𝑖

Λ⋆𝜐𝑖

𝜇⋆𝜐𝑖

= 𝑐2 + (𝜐𝑖 − 𝜇⋆𝜐𝑖

)𝑇Λ⋆𝜐𝑖

(𝜐𝑖 − 𝜇⋆𝜐𝑖

),

com:

Λ⋆𝜐𝑖

= Λ𝜐 + 𝛼∑𝑛

𝑗=1I𝑖𝑗[𝜈𝑗𝜈𝑇𝑗 ]

𝜇⋆𝜐𝑖

=(Λ⋆

𝜐𝑖

]−1[Λ𝜐𝜇𝜐 + 𝛼

∑𝑛

𝑗=1I𝑖𝑗[𝑟𝑖𝑗𝜈𝑗]).

Logo, (𝜐𝑖|.) ∼ 𝒩 (𝜇⋆𝜐𝑖, [Λ⋆

𝜐𝑖]−1).

Page 66: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Apêndice A. Abordagem Bayesiana para a Fatorização Probabilística de Matrizes 55

Note que,∑𝑛

𝑗=1I𝑖𝑗(𝜐𝑇𝑖 𝜈𝑗)2 =

∑𝑛

𝑗=1I𝑖𝑗(𝜐𝑇𝑖 𝜈𝑗)(𝜐𝑇

𝑖 𝜈𝑗) =∑𝑛

𝑗=1I𝑖𝑗(𝜐𝑇𝑖 𝜈𝑗)(𝜐𝑇

𝑖 𝜈𝑗)𝑇

=∑𝑛

𝑗=1I𝑖𝑗𝜐𝑇𝑖 𝜈𝑗𝜈

𝑇𝑗 𝜐𝑖 = 𝜐𝑇

𝑖

[∑𝑛

𝑗=1I𝑖𝑗𝜈𝑗𝜈𝑇𝑗

]𝜐𝑖.

A.3. Condicional Completa para 𝜈𝑗

𝑝(𝜈𝑗|.) ∝ 𝑝(ℛ|𝑈, 𝑉, 𝛼)𝑝(𝜈𝑗|𝜇𝜈 ,Λ𝜈)

∝𝑚∏𝑖=1

[𝜑1(𝑟𝑖𝑗|𝜐𝑇

𝑖 𝜈𝑗, 𝛼−1)

]I𝑖𝑗

𝑝(𝜈𝑗|𝜇𝜈 ,Λ𝜈)

∝ exp{

−𝛼

2∑𝑚

𝑖=1I𝑖𝑗(𝑟𝑖𝑗 − 𝜈𝑇𝑗 𝜐𝑖)2 − 12(𝜈𝑗 − 𝜇𝜈)𝑇Λ𝜈(𝜈𝑗 − 𝜇𝜈)

}

com:

Λ⋆𝜈𝑗

= Λ𝜈 + 𝛼∑𝑚

𝑖=1I𝑖𝑗[𝜐𝑖𝜐𝑇𝑖 ]

𝜇⋆𝜈𝑗

=[Λ⋆

𝜈𝑗

]−1 (Λ𝜈𝜇𝜈 + 𝛼

∑𝑚

𝑖=1I𝑖𝑗[𝑟𝑖𝑗𝜐𝑖]).

Logo, (𝜈𝑗|.) ∼ 𝒩 (𝜇⋆𝜈𝑗, [Λ⋆

𝜈𝑗]−1).

A.4. Condicional Completa para (𝜇𝜐,Λ𝜐)

𝑝(𝜇𝜐,Λ𝜐|.) ∝ 𝑝(𝑈 |𝜇𝜐,Λ𝜐)𝑝(𝜇𝜐|Λ𝜐)𝑝(Λ𝜐)

∝𝑚∏𝑖=1

[|Λ𝜐|

12 exp

{−1

2(𝜐𝑖 − 𝜇𝜐)𝑇Λ𝜐(𝜐𝑖 − 𝜇𝜐)}]

× |Λ𝜐|12 exp

{−1

2(𝜇𝜐 − 𝑎𝜇)𝑇 (𝑏𝜐Λ𝜐)(𝜇𝜐 − 𝑎𝜇)}

× |Λ𝜐|(𝑑𝜐−𝐷−1)/2 exp{

−12tr(𝐶−1

𝜐 Λ𝜐)}

= |Λ𝜐|𝑚2 + 1

2 +(𝑑𝜐−𝐷−1)/2 exp{

−12∑𝑚

𝑖=1(𝜐𝑖 − 𝜇𝜐)𝑇Λ𝜐(𝜐𝑖 − 𝜇𝜐)}

× exp{

−12(𝜇𝜐 − 𝑎𝜇)𝑇 (𝑏𝜐Λ𝜐)(𝜇𝜐 − 𝑎𝜇) − 1

2tr(𝐶−1𝜐 Λ𝜐)

}

Page 67: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Apêndice A. Abordagem Bayesiana para a Fatorização Probabilística de Matrizes 56

Parte 1

SQ𝜇,1 =∑𝑚

𝑖=1(𝜐𝑖 − 𝜇𝜐)𝑇Λ𝜐(𝜐𝑖 − 𝜇𝜐)

= tr(∑𝑚

𝑖=1(𝜐𝑖 − 𝜇𝜐)𝑇Λ𝜐(𝜐𝑖 − 𝜇𝜐))

= tr(∑𝑚

𝑖=1(𝜐𝑖 − 𝜇𝜐)(𝜐𝑖 − 𝜇𝜐)𝑇Λ𝜐

)= tr

(∑𝑚

𝑖=1(𝜐𝑖𝜐𝑇𝑖 − 𝜐𝑖𝜇

𝑇𝜐 − 𝜇𝜐𝜐𝑇

𝑖 + 𝜇𝜐𝜇𝑇𝜐 )Λ𝜐

)= tr

([𝑚𝜇𝜐𝜇𝑇

𝜐 −𝑚��𝜇𝑇𝜐 −𝑚𝜇𝜐��𝑇 +

∑𝑚

𝑖=1𝜐𝑖𝜐𝑇𝑖

]Λ𝜐

)= tr

([𝑚𝜇𝜐𝜇𝑇

𝜐 −𝑚��𝜇𝑇𝜐 −𝑚𝜇𝜐��𝑇 +𝑚����𝑇 −𝑚����𝑇 +

∑𝑚

𝑖=1𝜐𝑖𝜐𝑇𝑖

]Λ𝜐

)= tr

([𝑚(𝜇𝜐 − ��)(𝜇𝜐 − ��)𝑇 +

∑𝑚

𝑖=1𝜐𝑖𝜐𝑇𝑖 −𝑚����𝑇

]Λ𝜐

)= tr

(𝑚(𝜇𝜐 − ��)(𝜇𝜐 − ��)𝑇Λ𝜐

)+ tr

([∑𝑚

𝑖=1𝜐𝑖𝜐𝑇𝑖 −𝑚����𝑇

]Λ𝜐

)= (𝜇𝜐 − ��)𝑇 (𝑚Λ𝜐)(𝜇𝜐 − ��) + tr(S𝜐Λ𝜐),

com:

S𝜐 =∑𝑚

𝑖=1(𝜐𝑖 − ��)(𝜐𝑖 − ��)𝑇 =∑𝑚

𝑖=1(𝜐𝑖𝜐𝑇𝑖 − 𝜐𝑖��

𝑇 − ��𝜐𝑇𝑖 + ����𝑇 )

=∑𝑚

𝑖=1𝜐𝑖𝜐𝑇𝑖 −𝑚����𝑇 −𝑚����𝑇 +𝑚����𝑇 =

∑𝑚

𝑖=1𝜐𝑖𝜐𝑇𝑖 −𝑚����𝑇 .

Parte 2

SQ𝜇,2 = (𝜇𝜐 − ��)𝑇 (𝑚Λ𝜐)(𝜇𝜐 − ��) + (𝜇𝜐 − 𝑎𝜐)𝑇 (𝑏𝜐Λ𝜐)(𝜇𝜐 − 𝑎𝜐)

= 𝜇𝑇𝜐 (𝑚Λ𝜐)𝜇𝜐 − 2𝜇𝑇

𝜐 (𝑚Λ𝜐)�� + ��𝑇 (𝑚Λ𝜐)��

+ 𝜇𝑇𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐 − 2𝜇𝑇

𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐 + 𝑎𝑇𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐

= 𝜇𝑇𝜐 ([𝑚+ 𝑏𝜐]Λ𝜐)𝜇𝜐 − 2𝜇𝑇

𝜐 Λ𝜐(𝑚�� + 𝑏𝜐𝑎𝜐) + ��𝑇 (𝑚Λ𝜐)�� + 𝑎𝑇𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐

= 𝜇𝑇𝜐 (𝑏⋆𝜐Λ𝜐)𝜇𝜐 − 2𝜇𝑇

𝜐 (𝑏⋆𝜐Λ𝜐)𝑎⋆𝜐 + 𝑎⋆𝑇𝜐 (𝑏⋆𝜐Λ𝜐)𝑎⋆𝜐+ ��𝑇 (𝑚Λ𝜐)�� + 𝑎𝑇𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐 − 𝑎⋆𝑇𝜐 (𝑏⋆𝜐Λ𝜐)𝑎⋆𝜐= (𝜇𝜐 − 𝑎⋆𝜐)𝑇 (𝑏⋆𝜐Λ𝜐)(𝜇𝜐 − 𝑎⋆𝜐) + ��𝑇 (𝑚Λ𝜐)�� + 𝑎𝑇𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐 − 𝑎⋆𝑇𝜐 (𝑏⋆𝜐Λ𝜐)𝑎⋆𝜐,

com:𝑏⋆𝜐 = 𝑏𝜐 +𝑚 e 𝑎⋆𝜐 = 1

𝑏⋆𝜐(𝑚�� + 𝑏𝜐𝑎𝜐).

Logo, (𝜇𝜐|Λ𝜐, .) ∼ 𝒩 (𝑎⋆𝜐, [𝑏⋆𝜐Λ𝜐]−1).

Page 68: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Apêndice A. Abordagem Bayesiana para a Fatorização Probabilística de Matrizes 57

Parte 3

SQΛ = ��𝑇 (𝑚Λ𝜐)�� + 𝑎𝑇𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐 − 𝑎⋆𝑇𝜐 (𝑏⋆𝜐Λ𝜐)𝑎⋆𝜐

= ��𝑇 (𝑚Λ𝜐)�� + 𝑎𝑇𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐 − (𝑚�� + 𝑏𝜐𝑎𝜐)𝑇𝑏⋆𝜐

(𝑏⋆𝜐Λ𝜐)(𝑚�� + 𝑏𝜐𝑎𝜐)𝑇𝑏⋆𝜐

= 1𝑏⋆𝜐

[��𝑇Λ𝜐��𝑚𝑏⋆𝜐 + 𝑎𝑇𝜐 Λ𝜐𝑎𝜐𝑏𝜐𝑏

⋆𝜐 − (𝑚�� + 𝑏𝜐𝑎𝜐)𝑇Λ𝜐(𝑚�� + 𝑏𝜐𝑎𝜐)

]= 1

𝑏⋆𝜐

[��𝑇Λ𝜐��(𝑚2 +𝑚𝑏𝜐) + 𝑎𝑇𝜐 Λ𝜐𝑎𝜐(𝑚𝑏𝜐 + 𝑏2

𝜐) −𝑚2��𝑇Λ𝜐�� − 2𝑚𝑏𝜐𝑎𝑇𝜐 Λ𝜐�� − 𝑏2𝜐𝑎𝑇𝜐 Λ𝜐𝑎𝜐

]= 𝑚𝑏𝜐

𝑏⋆𝜐

[𝑎𝑇𝜐 Λ𝜐𝑎𝜐 − 2𝑎𝑇𝜐 Λ𝜐�� + ��𝑇Λ𝜐��

]= 𝑚𝑏𝜐

𝑏⋆𝜐(𝑎𝜐 − ��)𝑇Λ𝜐(𝑎𝜐 − ��)

= tr(𝑚𝑏𝜐

𝑏⋆𝜐(𝑎𝜐 − ��)(𝑎𝜐 − ��)𝑇Λ𝜐

)= tr (S𝑎Λ𝜐) ,

com:S𝑎 = 𝑚𝑏𝜐

𝑏⋆𝜐(𝑎𝜐 − ��)(𝑎𝜐 − ��)𝑇 .

Parte 4

𝑝(Λ𝜐|.) ∝ |Λ𝜐|(𝑑𝜐+𝑚−𝐷−1)/2 exp{

−12tr(𝐶−1

𝜐 Λ𝜐) − 12tr(S𝜐Λ𝜐) − 1

2tr(S𝑎Λ𝜐)}

= |Λ𝜐|(𝑑⋆𝜐−𝐷−1)/2 exp

{−1

2tr([𝐶⋆𝜐]−1Λ𝜐)

},

com:𝑑⋆𝜐 = 𝑑𝜐 +𝑚 e [𝐶⋆

𝜐]−1 = 𝐶−1𝜐 + S𝜐 + S𝑎.

Logo, (Λ𝜐|.) ∼ 𝒲(𝐶⋆𝜐, 𝑑

⋆𝜐).

A.5. Condicional Completa para (𝜇𝜈,Λ𝜈)

Tem-se que:

(𝜇𝜈 |Λ𝜈 , .) ∼ 𝒩 (𝑎⋆𝜈 , [𝑏⋆𝜈Λ𝜈 ]−1);

(Λ𝜈 |.) ∼ 𝒲(𝐶⋆𝜈 , 𝑑

⋆𝜈),

Page 69: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Apêndice A. Abordagem Bayesiana para a Fatorização Probabilística de Matrizes 58

com:

𝑏⋆𝜈 = 𝑏𝜈 + 𝑛

𝑑⋆𝜈 = 𝑑𝜈 + 𝑛

𝑎⋆𝜈 = 1𝑏⋆𝜈

(𝑛�� + 𝑏𝜈𝑎𝜈)

Q𝜈 =∑𝑛

𝑗=1(𝜈𝑗 − ��)(𝜈𝑗 − ��)𝑇

Q𝑎 = 𝑛𝑏𝜈

𝑏⋆𝜈(𝑎𝜈 − ��)(𝑎𝜈 − ��)𝑇

[𝐶⋆𝜈 ]−1 = 𝐶−1

𝜈 + Q𝜈 + Q𝑎.

Page 70: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

59

Apêndice B

Modelo Bayesiano Heterocedástico de Fatorização

Probabilística de Matrizes

Suponha que o modelo seja dada por:

(𝑟𝑖𝑗|𝜐𝑖,𝜈𝑗, 𝛼) ∼ 𝒩 (𝜐𝑇𝑖 𝜈𝑗, 𝛼

−1), 𝑖 = 1, 2, . . . ,𝑚, e 𝑗 = 1, 2, . . . , 𝑛,

(𝜐𝑖|𝜇𝜐,Λ𝜐, 𝜆𝜐𝑖) ∼ 𝒩 (𝜇𝜐, [𝜆𝜐𝑖

Λ𝜐]−1)

(𝜆𝜐𝑖|𝜅𝜐) ∼ 𝒢

(𝜅𝜐

2 ,𝜅𝜐

2

)𝜅𝜐 ∼ 𝒢(𝑎𝜅𝜐 , 𝑏𝜅𝜐)

(𝜈𝑗|𝜇𝜈 ,Λ𝜈 , 𝜆𝜈𝑗) ∼ 𝒩 (𝜇𝜈 , [𝜆𝜈𝑗

Λ𝜈 ]−1)

(𝜆𝜈𝑗|𝜅𝜈) ∼ 𝒢

(𝜅𝜈

2 ,𝜅𝜈

2

)𝜅𝜈 ∼ 𝒢(𝑎𝜅𝜈 , 𝑏𝜅𝜈 )

(𝜇𝜐|Λ𝜐) ∼ 𝒩 (𝑎𝜐, [𝑏𝜐Λ𝜐]−1)

Λ𝜐 ∼ 𝒲(𝐶𝜐, 𝑑𝜐)

(𝜇𝜈 |Λ𝜈) ∼ 𝒩 (𝑎𝜈 , [𝑏𝜈Λ𝜈 ]−1)

Λ𝜈 ∼ 𝒲(𝐶𝜈 , 𝑑𝜈)

𝛼 ∼ 𝒢(𝑎𝛼, 𝑏𝛼).

Page 71: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Apêndice B. Modelo Bayesiano Heterocedástico de Fatorização Probabilística de Matrizes 60

Assim,

𝑝(ℛ|𝑈, 𝑉, 𝛼) =𝑚∏𝑖=1

𝑛∏𝑗=1

[𝜑1(𝑟𝑖𝑗|𝜐𝑇

𝑖 𝜈𝑗, 𝛼−1)

]I𝑖𝑗

𝑝(𝑈 |𝜇𝜐,Λ𝜐,𝜆𝜐) =𝑚∏𝑖=1

𝜑𝑝(𝜐𝑖|𝜇𝜐, [𝜆𝜐𝑖Λ𝜐]−1)

𝑝(𝜆𝜐|𝜅𝜐) =𝑚∏𝑖=1

𝑝(𝜆𝜐𝑖|𝜅𝜐)

𝑝(𝑉 |𝜇𝜈 ,Λ𝜈 ,𝜆𝜈) =𝑛∏𝑗=1

𝜑𝑝(𝜈𝑗|𝜇𝜈 , [𝜆𝜈Λ𝜈 ]−1)

𝑝(𝜆𝜈 |𝜅𝜈) =𝑛∏𝑗=1

𝑝(𝜆𝜈𝑗|𝜅𝜐).

Então,

𝑝(𝜇𝜐,Λ𝜐) = 𝑝(𝜇𝜐|Λ𝜐)𝑝(Λ𝜐) = 𝜑𝑝(𝜇𝜐|𝑎𝜐, [𝑏𝜐Λ𝜐]−1)𝜔(Λ𝜐|𝐶𝜐, 𝑑𝜐)

𝑝(𝜇𝜈 ,Λ𝜈) = 𝑝(𝜇𝜈 |Λ𝜈)𝑝(Λ𝜈) = 𝜑𝑝(𝜇𝜈 |𝑎𝜈 , [𝑏𝜈Λ𝜈 ]−1)𝜔(Λ𝜈 |𝐶𝜈 , 𝑑𝜈)

𝑝(𝜅𝜐) = 𝑝(𝜅𝜐|𝑎𝜅𝜐 , 𝑏𝜅𝜐)

𝑝(𝜅𝜈) = 𝑝(𝜅𝜈 |𝑎𝜅𝜈 , 𝑏𝜅𝜈 )

𝑝(𝛼) = 𝑝(𝛼|𝑎𝛼, 𝑏𝛼).

Considere 𝑁 =∑𝑚

𝑖=1

∑𝑛

𝑗=1I𝑖𝑗 o tamanho efetivo da amostra (contando somente osvalores observados).

B.1. Condicional Completa para 𝛼

𝑝(𝛼|.) ∝ 𝑝(ℛ|𝑈, 𝑉, 𝛼)𝑝(𝛼|𝑎𝛼, 𝑏𝛼)

∝ 𝛼𝑁2 +𝑎𝛼−1 exp

{−𝛼

2∑𝑚

𝑖=1

∑𝑛

𝑗=1I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2 − 𝑏𝛼𝛼

}∝ 𝛼( 𝑁

2 +𝑎𝛼)−1 exp{

−𝛼[12∑𝑚

𝑖=1

∑𝑛

𝑗=1I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2 + 𝑏𝛼

]}

Logo, (𝛼|.) ∼ 𝒢(𝑁2 + 𝑎𝛼,

12∑𝑚

𝑖=1

∑𝑛

𝑗=1I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2 + 𝑏𝛼

).

Page 72: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Apêndice B. Modelo Bayesiano Heterocedástico de Fatorização Probabilística de Matrizes 61

B.2. Condicional Completa para 𝜐𝑖

𝑝(𝜐𝑖|.) ∝ 𝑝(ℛ|𝑈, 𝑉, 𝛼)𝑝(𝜐𝑖|𝜇𝜐,Λ𝜐, 𝜆𝜐𝑖)

∝𝑛∏𝑗=1

[𝜑1(𝑟𝑖𝑗|𝜐𝑇

𝑖 𝜈𝑗, 𝛼−1)

]I𝑖𝑗

𝑝(𝜐𝑖|𝜇𝜐,Λ𝜐, 𝜆𝜐𝑖)

∝ exp{

−𝛼

2∑𝑛

𝑗=1I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2 − 1

2(𝜐𝑖 − 𝜇𝜐)𝑇 [𝜆𝜐𝑖Λ𝜐](𝜐𝑖 − 𝜇𝜐)

}

Agora, tem-se que:

𝑆𝑄𝜐𝑖= 𝛼

∑𝑛

𝑗=1I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2 + (𝜐𝑖 − 𝜇𝜐)𝑇 [𝜆𝜐𝑖

Λ𝜐](𝜐𝑖 − 𝜇𝜐)

= 𝛼∑𝑛

𝑗=1I𝑖𝑗𝑟2𝑖𝑗 − 2𝛼

∑𝑛

𝑗=1I𝑖𝑗𝑟𝑖𝑗𝜐𝑇𝑖 𝜈𝑗 + 𝛼

∑𝑛

𝑗=1I𝑖𝑗(𝜐𝑇𝑖 𝜈𝑗)2

+ 𝜐𝑇𝑖 [𝜆𝜐𝑖

Λ𝜐]𝜐𝑖 − 2𝜐𝑖[𝜆𝜐𝑖Λ𝜐]𝜇𝜐 + 𝜇𝑇

𝜐 [𝜆𝜐𝑖Λ𝜐]𝜇𝜐

= 𝑐1 + 𝜐𝑇𝑖

[𝜆𝜐𝑖

Λ𝜐 + 𝛼∑𝑛

𝑗=1I𝑖𝑗𝜈𝑗𝜈𝑇𝑗

]𝜐𝑖 − 2𝜐𝑇

𝑖

[𝜆𝜐𝑖

Λ𝜐𝜇𝜐 + 𝛼∑𝑛

𝑗=1I𝑖𝑗𝑟𝑖𝑗𝜈𝑗]

= 𝑐1 + 𝜐𝑇𝑖 Λ⋆

𝜐𝑖𝜐𝑖 − 2𝜐𝑇

𝑖 Λ⋆𝜐𝑖

𝜇⋆𝜐

= 𝑐2 + 𝜐𝑇𝑖 Λ⋆

𝜐𝑖𝜐𝑖 − 2𝜐𝑇

𝑖 Λ⋆𝜐𝑖

𝜇⋆𝜐𝑖

+ 𝜇⋆𝑇𝜐𝑖

Λ⋆𝜐𝑖

𝜇⋆𝜐𝑖

= 𝑐2 + (𝜐𝑖 − 𝜇⋆𝜐𝑖

)𝑇Λ⋆𝜐𝑖

(𝜐𝑖 − 𝜇⋆𝜐𝑖

),

com:

Λ⋆𝜐𝑖

= 𝜆𝜐𝑖Λ𝜐 + 𝛼

∑𝑛

𝑗=1I𝑖𝑗𝜈𝑗𝜈𝑇𝑗

𝜇⋆𝜐𝑖

=[Λ⋆

𝜐𝑖

]−1[𝜆𝜐𝑖

Λ𝜐𝜇𝜐 + 𝛼∑𝑛

𝑗=1I𝑖𝑗𝑟𝑖𝑗𝜈𝑗].

Logo, (𝜐𝑖|.) ∼ 𝒩 (𝜇⋆𝜐𝑖, [Λ⋆

𝜐𝑖]−1).

Note que,∑𝑛

𝑗=1I𝑖𝑗(𝜐𝑇𝑖 𝜈𝑗)2 =

∑𝑛

𝑗=1I𝑖𝑗(𝜐𝑇𝑖 𝜈𝑗)(𝜐𝑇

𝑖 𝜈𝑗) =∑𝑛

𝑗=1I𝑖𝑗(𝜐𝑇𝑖 𝜈𝑗)(𝜐𝑇

𝑖 𝜈𝑗)𝑇

=∑𝑛

𝑗=1I𝑖𝑗𝜐𝑇𝑖 𝜈𝑗𝜈

𝑇𝑗 𝑢𝑖 = 𝜐𝑇

𝑖

[∑𝑛

𝑗=1I𝑖𝑗𝜈𝑗𝜈𝑇𝑗

]𝜐𝑖.

B.3. Condicional Completa para 𝜈𝑗

𝑝(𝜈𝑗|.) ∝ 𝑝(ℛ|𝑈, 𝑉, 𝛼)𝑝(𝜈𝑗|𝜇𝜈 ,Λ𝜈 , 𝜆𝜈𝑗)

∝𝑚∏𝑖=1

[𝜑1(𝑟𝑖𝑗|𝜐𝑇

𝑖 𝜈𝑗, 𝛼−1)

]I𝑖𝑗

𝑝(𝜈𝑗|𝜇𝜈 ,Λ𝜈 , 𝜆𝜈𝑗)

∝ exp{

−𝛼

2∑𝑚

𝑖=1I𝑖𝑗(𝑟𝑖𝑗 − 𝜐𝑇𝑖 𝜈𝑗)2 − 1

2(𝜈𝑗 − 𝜇𝜈)𝑇 [𝜆𝜈𝑗Λ𝜈 ](𝜈𝑗 − 𝜇𝜈)

}

Page 73: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Apêndice B. Modelo Bayesiano Heterocedástico de Fatorização Probabilística de Matrizes 62

com:

Λ⋆𝜈𝑗

= 𝜆𝜈𝑗Λ𝜈 + 𝛼

∑𝑚

𝑖=1I𝑖𝑗𝜐𝑖𝜐𝑇𝑖

𝜇⋆𝜈𝑗

=[Λ⋆

𝜈𝑗

]−1 [𝜆𝜈𝑗

Λ𝜈𝜇𝜈 + 𝛼∑𝑚

𝑖=1I𝑖𝑗𝑟𝑖𝑗𝜐𝑖

].

Logo, (𝜈𝑗|.) ∼ 𝒩 (𝜇⋆𝜈𝑗, [Λ⋆

𝜈𝑗]−1).

B.4. Condicional Completa para (𝜇𝜐,Λ𝜐)

𝑝(𝜇𝜐,Λ𝜐|.) ∝ 𝑝(𝑈 |𝜇𝜐,Λ𝜐, 𝜆𝜐)𝑝(𝜇𝜐|Λ𝜐)𝑝(Λ𝜐)

∝𝑚∏𝑖=1

[|Λ𝜐|1/2 exp

{−1

2(𝜐𝑖 − 𝜇𝜐)𝑇 [𝜆𝜐𝑖Λ𝜐](𝜐𝑖 − 𝜇𝜐)

}]

× |Λ𝜐|1/2 exp{

−12(𝜇𝜐 − 𝑎𝜐)𝑇 (𝑏𝜐Λ𝜐)(𝜇𝜐 − 𝑎𝜐)

}× |Λ𝜐|(𝑑𝜐−𝐷𝜐−1)/2 exp

{−1

2tr(𝐶−1𝜐 Λ𝜐)

}= |Λ𝜐|𝑚/2+1/2+(𝑑𝜐−𝐷𝜐−1)/2 exp

{−1

2∑𝑚

𝑖=1(𝜐𝑖 − 𝜇𝜐)𝑇 [𝜆𝜐𝑖Λ𝜐](𝜐𝑖 − 𝜇𝜐)

}× exp

{−1

2(𝜇𝜐 − 𝑎𝜐)𝑇 (𝑏𝜐Λ𝜐)(𝜇𝜐 − 𝑎𝜐) − 12tr(𝐶−1

𝜐 Λ𝜐)}

Parte 1

Defina ��𝜐 = 1𝑚

∑𝑚

𝑖=1𝜆𝜐𝑖e �� =

∑𝑚

𝑖=1𝜆𝜐𝑖𝜐𝑖∑𝑚

𝑖=1𝜆𝜐𝑖

= 1𝑚��𝜐

∑𝑚

𝑖=1𝜆𝜐𝑖𝜐𝑖.

SQ𝜇,1 =∑𝑚

𝑖=1(𝜐𝑖 − 𝜇𝜐)𝑇 [𝜆𝜐𝑖Λ𝜐](𝜐𝑖 − 𝜇𝜐)

= tr(∑𝑚

𝑖=1𝜆𝜐𝑖(𝜐𝑖 − 𝜇𝜐)𝑇Λ𝜐(𝜐𝑖 − 𝜇𝜐)

)= tr

(∑𝑚

𝑖=1𝜆𝜐𝑖(𝜐𝑖 − 𝜇𝜐)(𝜐𝑖 − 𝜇𝜐)𝑇Λ𝜐

)= tr

(∑𝑚

𝑖=1𝜆𝜐𝑖(𝜐𝑖𝜐

𝑇𝑖 − 𝜐𝑖𝜇

𝑇𝜐 − 𝜇𝜐𝜐𝑇

𝑖 + 𝜇𝜐𝜇𝑇𝜐 )Λ𝜐

)= tr

([𝑚��𝜐𝜇𝜐𝜇𝑇

𝜐 −𝑚��𝜐��𝜇𝑇𝜐 −𝑚��𝜐𝜇𝜐��𝑇 +

∑𝑚

𝑖=1𝜆𝜐𝑖𝜐𝑖𝜐

𝑇𝑖

]Λ𝜐

)= tr

([𝑚��𝜐𝜇𝜐𝜇𝑇

𝜐 −𝑚��𝜐��𝜇𝑇𝜐 −𝑚��𝜐𝜇𝜐��𝑇 +𝑚��𝜐����𝑇

− 𝑚��𝜐����𝑇 +∑𝑚

𝑖=1𝜆𝜐𝑖𝜐𝑖𝜐

𝑇𝑖

]Λ𝜐

)= tr

([𝑚��𝜐(𝜇𝜐 − ��)(𝜇𝜐 − ��)𝑇 +

∑𝑚

𝑖=1𝜆𝜐𝑖𝜐𝑖𝜐

𝑇𝑖 −𝑚��𝜐����𝑇

]Λ𝜐

)= tr

(𝑚��𝜐(𝜇𝜐 − ��)(𝜇𝜐 − ��)𝑇Λ𝜐

)+ tr

([∑𝑚

𝑖=1𝜆𝜐𝑖𝜐𝑖𝜐

𝑇𝑖 −𝑚��𝜐����𝑇

]Λ𝜐

)= (𝜇𝜐 − ��)𝑇 [𝑚��𝜐Λ𝜐](𝜇𝜐 − ��) + tr(S𝜐Λ𝜐),

Page 74: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Apêndice B. Modelo Bayesiano Heterocedástico de Fatorização Probabilística de Matrizes 63

com:

S𝜐 =∑𝑚

𝑖=1𝜆𝜐𝑖(𝜐𝑖 − ��)(𝜐𝑖 − ��)𝑇 =

∑𝑚

𝑖=1(𝜆𝜐𝑖𝜐𝑖𝜐

𝑇𝑖 − 𝜆𝜐𝑖

𝜐𝑖��𝑇 − 𝜆𝜐𝑖

��𝜐𝑇𝑖 + 𝜆𝜐𝑖

����𝑇 )

=∑𝑚

𝑖=1𝜆𝜐𝑖𝜐𝑖𝜐

𝑇𝑖 −𝑚��𝜐����𝑇 −𝑚��𝜐����𝑇 +𝑚��𝜐����𝑇 =

∑𝑚

𝑖=1𝜆𝜐𝑖𝜐𝑖𝜐

𝑇𝑖 −𝑚��𝜐����𝑇 .

Parte 2

SQ𝜇,2 = (𝜇𝜐 − ��)𝑇 (𝑚��𝜐Λ𝜐)(𝜇𝜐 − ��) + (𝜇𝜐 − 𝑎𝜐)𝑇 (𝑏𝜐Λ𝜐)(𝜇𝜐 − 𝑎𝜐)

= 𝜇𝑇𝜐 (𝑚��𝜐Λ𝜐)𝜇𝜐 − 2𝜇𝑇

𝜐 (𝑚��𝜐Λ𝜐)�� + ��𝑇 (𝑚��𝜐Λ𝜐)��

+ 𝜇𝑇𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐 − 2𝜇𝑇

𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐 + 𝑎𝑇𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐

= 𝜇𝑇𝜐 ((𝑚��𝜐 + 𝑏𝜐)Λ𝜐)𝜇𝜐 − 2𝜇𝑇

𝜐 Λ𝜐(𝑚��𝜐�� + 𝑏𝜐𝑎𝜐) + ��𝑇 (𝑚��𝜐Λ𝜐)�� + 𝑎𝑇𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐

= 𝜇𝑇𝜐 (𝑏⋆𝜐Λ𝜐)𝜇𝜐 − 2𝜇𝑇

𝜐 (𝑏⋆𝜐Λ𝜐)𝑎⋆𝜐 + 𝑎⋆𝑇𝜐 (𝑏⋆𝜐Λ𝜐)𝑎⋆𝜐+ ��𝑇 (𝑚��𝜐Λ𝜐)�� + 𝑎𝑇𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐 − 𝑎⋆𝑇𝜐 (𝑏⋆𝜐Λ𝜐)𝑎⋆𝜐= (𝜇𝜐 − 𝑎⋆𝜐)𝑇 (𝑏⋆𝜐Λ𝜐)(𝜇𝜐 − 𝑎⋆𝜐) + ��𝑇 (𝑚��𝜐Λ𝜐)�� + 𝑎𝑇𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐 − 𝑎⋆𝑇𝜐 (𝑏⋆𝜐Λ𝜐)𝑎⋆𝜐,

com:𝑏⋆𝜐 = 𝑏𝜐 +𝑚��𝜐 e 𝑎⋆𝜐 = 1

𝑏⋆𝜐(𝑚��𝜐�� + 𝑏𝜐𝑎𝜐).

Logo, (𝜇𝜐|Λ𝜐, .) ∼ 𝒩 (𝑎⋆𝜐, [𝑏⋆𝜐Λ𝜐]−1).

Parte 3

SQΛ = ��𝑇 (𝑚��𝜐Λ𝜐)�� + 𝑎𝑇𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐 − 𝑎⋆𝑇𝜐 (𝑏⋆𝜐Λ𝜐)𝑎⋆𝜐

= ��𝑇 (𝑚��𝜐Λ𝜐)�� + 𝑎𝑇𝜐 (𝑏𝜐Λ𝜐)𝑎𝜐 − (𝑚��𝜐�� + 𝑏𝜐𝑎𝜐)𝑇𝑏⋆𝜐

(𝑏⋆𝜐Λ𝜐)(𝑚��𝜐�� + 𝑏𝜐𝑎𝜐)𝑇𝑏⋆𝜐

= 1𝑏⋆𝜐

[��𝑇Λ𝜐��𝑚��𝜐𝑏

⋆𝜐 + 𝑎𝑇𝜐 Λ𝜐𝑎𝜐𝑏𝜐𝑏

⋆𝜐 − (𝑚��𝜐�� + 𝑏𝜐𝑎𝜐)𝑇Λ𝜐(𝑚��𝜐�� + 𝑏𝜐𝑎𝜐)

]= 1

𝑏⋆𝜐

[��𝑇Λ𝜐��(𝑚2��2

𝜐 +𝑚��𝜐𝑏𝜐) + 𝑎𝑇𝜐 Λ𝜐𝑎𝜐(𝑚��𝜐𝑏𝜐 + 𝑏2𝜐)

− 𝑚2��2𝜐��𝑇Λ𝜐�� − 2𝑚��𝜐𝑏𝜐𝑎𝑇𝜐 Λ𝜐�� − 𝑏2

𝜐𝑎𝑇𝜐 Λ𝜐𝑎𝜐

]= 𝑚��𝜐𝑏𝜐

𝑏⋆𝜐

[𝑎𝑇𝜐 Λ𝜐𝑎𝜐 − 2𝑎𝑇𝜐 Λ𝜐�� + ��𝑇Λ𝜐��

]= 𝑚��𝜐𝑏𝜐

𝑏⋆𝜐(𝑎𝜐 − ��)𝑇Λ𝜐(𝑎𝜐 − ��)

= tr(𝑚��𝜐𝑏𝜐

𝑏⋆𝜐(𝑎𝜐 − ��)(𝑎𝜐 − ��)𝑇Λ𝜐

)= tr

(S𝑎Λ𝜐

),

Page 75: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Apêndice B. Modelo Bayesiano Heterocedástico de Fatorização Probabilística de Matrizes 64

com:S𝑎 = 𝑚��𝜐𝑏𝜐

𝑏⋆𝜐(𝑎𝜐 − ��)(𝑎𝜐 − ��)𝑇 .

Parte 4

𝑝(Λ𝜐|.) ∝ |Λ𝜐|(𝑑𝜐+𝑚−𝐷𝜐−1)/2 exp{

−12tr(𝐶−1

𝜐 Λ𝜐) − 12tr(S𝜐Λ𝜐) − 1

2tr(S𝑎Λ𝜐)}

= |Λ𝜐|(𝑑⋆𝜐−𝐷𝜐−1)/2 exp

{−1

2tr([𝐶⋆𝜐]−1Λ𝜐)

},

com:𝑑⋆𝜐 = 𝑑𝜐 +𝑚 e [𝐶⋆

𝜐]−1 = 𝐶−1𝜐 + S𝜐 + S𝑎.

Logo, (Λ𝜐|.) ∼ 𝒲(𝐶⋆𝜐, 𝑑

⋆𝜐).

B.5. Condicional Completa para (𝜇𝜈,Λ𝜈)

Tem-se que:

(𝜇𝜈 |Λ𝜈 , .) ∼ 𝒩 (𝑎⋆𝜈 , [𝑏⋆𝜈Λ𝜈 ]−1);

(Λ𝜈 |.) ∼ 𝒲(𝐶⋆𝜈 , 𝑑

⋆𝜈),

com:

𝑏⋆𝜈 = 𝑏𝜈 + 𝑛��𝜈

𝑑⋆𝜈 = 𝑑𝜈 + 𝑛

𝑎⋆𝜈 = 1𝑏⋆𝜈

(𝑛��𝜈 �� + 𝑏𝜈𝑎𝜈)

Q𝜈 =∑𝑛

𝑗=1𝜆𝜈𝑗(𝜈𝑗 − ��)(𝜈𝑗 − ��)𝑇

Q𝑎 = 𝑛��𝜈𝑏𝜈

𝑏⋆𝜈(𝑎𝜈 − ��)(𝑎𝜈 − ��)𝑇

[𝐶⋆𝜈 ]−1 = 𝐶−1

𝜈 + Q𝜈 + Q𝑎.

B.6. Condicional Completa para 𝜆𝜐𝑖

𝑝(𝜆𝜐𝑖|.) ∝ 𝑝(𝜐𝑖|𝜇𝜐,Λ𝜐, 𝜆𝜐𝑖

)𝑝(𝜆𝜐𝑖|𝜅𝜐)

∝ 𝜆(𝐷𝜐+𝜅𝜐)/2−1𝜐𝑖

exp{

−𝜆𝜐𝑖

2[𝜅𝜐 + (𝜐𝑖 − 𝜇𝜐)𝑇Λ𝜐(𝜐𝑖 − 𝜇𝜐)

]}.

Page 76: Modelo Bayesiano Heterocedástico de Fatorização ... · Resumen En esta disertación se propone una extensión de la factorización matricial probabilísticabayesianaparatratarcondatosescasosydealtadimensión,esdecir,

Apêndice B. Modelo Bayesiano Heterocedástico de Fatorização Probabilística de Matrizes 65

Logo, 𝜆𝜐𝑖∼ 𝒢

(𝐷𝜐 + 𝜅𝜐

2 ,12[𝜅𝜐 + (𝜐𝑖 − 𝜇𝜐)𝑇Λ𝜐(𝜐𝑖 − 𝜇𝜐)

]).

B.7. Condicional Completa para 𝜆𝜈𝑗

𝑝(𝜆𝜈𝑗|.) ∝ 𝑝(𝜈𝑗|𝜇𝜈 ,Λ𝜈 , 𝜆𝜈𝑗

)𝑝(𝜆𝜈𝑗|𝜅𝜈)

∝ 𝜆(𝐷𝜈+𝜅𝜈)/2−1𝜈𝑗

exp{

−𝜆𝜈𝑗

2[𝜅𝜈 + (𝜈𝑗 − 𝜇𝜈)𝑇Λ𝜈(𝜈𝑗 − 𝜇𝜈)

]}.

Logo, 𝜆𝜈𝑗∼ 𝒢

(𝐷𝜈 + 𝜅𝜈

2 ,12[𝜅𝜈 + (𝜈𝑗 − 𝜇𝜈)𝑇Λ𝜈(𝜈𝑗 − 𝜇𝜈)

]).

B.8. Condicional Completa para 𝜅𝜐

𝑝(𝜅𝜐|.) ∝ 𝑝(𝜆𝜐|𝜅𝜐)𝑝(𝜅𝜐) =[𝑚∏𝑖=1

𝑝(𝜆𝜐𝑖|𝜅𝜐)

]𝑝(𝜅𝜐)

∝ [𝜅𝜐/2]𝑚𝜅𝜐/2

[Γ(𝜅𝜐/2)]𝑚

[𝑚∏𝑖=1

𝜆𝜅𝜐/2𝜐𝑖

]exp

{−𝜅𝜐

2 𝑚��𝜐

}𝑝(𝜅𝜐)

= exp{

−𝜅𝜐

2

[∑𝑚

𝑖=1(𝜆𝜐𝑖− log(𝜆𝜐𝑖

)) −𝑚 log(𝜅𝜐

2

)]−𝑚 log Γ

(𝜅𝜐

2

)}𝑝(𝜅𝜐).

B.9. Condicional Completa para 𝜅𝜈

𝑝(𝜅𝜈 |.) ∝ 𝑝(𝜆𝜈 |𝜅𝜈)𝑝(𝜅𝜈) =⎡⎣ 𝑛∏𝑗=1

𝑝(𝜆𝜈𝑗|𝜅𝜈)

⎤⎦ 𝑝(𝜅𝜈)

∝ [𝜅𝜈/2]𝑛𝜅𝜈/2

[Γ(𝜅𝜈/2)]𝑛

⎡⎣ 𝑛∏𝑗=1

𝜆𝜅𝜈/2𝜈𝑗

⎤⎦ exp{

−𝜅𝜈

2 𝑛��𝜈

}𝑝(𝜅𝜈)

= exp{

−𝜅𝜈

2

[∑𝑛

𝑗=1(𝜆𝜈𝑗− log(𝜆𝜈𝑗

)) − 𝑛 log(𝜅𝜈

2

)]− 𝑛 log Γ

(𝜅𝜈

2

)}𝑝(𝜅𝜈).