lỜi cẢm Ơn -...

i

LỜI CẢM ƠN

Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới Thầy giáo, PGS-TS Hà Quang Thụy đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em trong

suốt quá trình thực hiện đề tài.

Em xin gửi lời cảm ơn sâu sắc tới quý Thầy Cô giáo trong Khoa Công nghệ thông tin nói riêng và trong trường Đại học Công nghệ - Đại Học Quốc Gia Hà Nội nói chung,

đã truyền đạt kiến thức quý báu cho em trong những năm học qua.

Em cũng xin được gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên trong

nhóm “Tư vấn xã hội” Phòng thí nghiệm Công nghệ tri thức KT-Lab đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khóa luận.

Em cũng xin gửi lời cảm ơn sâu sắc tới công ty DataSection Việt Nam đã tạo mọi điều kiện tốt nhất cho em thực hiện đề tài tại công ty. Đồng thời, em cũng xin gửi lời cảm ơn tới các anh chị trong công ty đã giúp đỡ em trong suốt quá trình thực hiện đề tài.

Con xin nói lên lòng biết ơn vô hạn đến Bố Mẹ, Bố Mẹ luôn là nguồn chăm sóc, động viên, khích lệ con trên con đường học vấn.

Cuối cùng, xin gửi lời cảm ơn tới các anh chị và các bạn, đặc biệt là thành viên lớp K56CB đã ủng hộ, giúp đỡ trong suốt quá trình tôi học tập trên giảng đường đại học và thực hiện đề tài.

Tôi xin chân thành cảm ơn!

Thái Thị Hoài

Hà Nội, ngày 8 tháng 12 năm 2014

Sinh viên

ii

TÓM TẮT

Tóm tắt: Hệ tư vấn đóng vai trò quan trọng trong việc gợi ý các thông tin liên quan tới sở thích

của người dùng. Sự phát triển nhanh chóng của các phương tiện xã hội như Facebook1, Twitter2, Google+3 … dẫn đến một lượng người dùng khổng lồ tạo ra các kết nối, các mối quan hệ tường minh và tiềm ẩn cho nhiều tiềm năng khai thác để tư vấn. Tư vấn xã hội sử dụng các tài nguyên từ phương tiện xã hội bổ sung vào tư vấn đã trở thành chủ đề nghiên cứu nhận được sự quan tâm đặc biệt, đặc biệt các nhóm nghiên cứu của Huan Liu và Hao Ma. Nói riêng, khai thác ngữ cảnh xã hội toàn cục và cục bộ vào hệ tư vấn là một đề tài nghiên cứu thời sự [4, 6, 13].

Khóa luận tập trung vào giải pháp khai thác ngữ cảnh xã hội vào hệ tư vấn dựa trên tiếp cận của Jiliang Tang và cộng sự, 2014 [13]. Khóa luận đề nghị một mô hình tư vấn dựa trên khai thác ngữ cảnh xã hội từ phương tiện xã hội Facebook, trong đó một phương án định lượng hạng của người dùng và sản phẩm được lựa chọn. Khóa luận cũng xây dựng một phần mềm thi hành mô hình đề xuất nói trên. Tiến hành thử nghiệm trên miền dữ liệu điện thoại di động thông minh của Samsung trên page Facebook từ hệ thống cửa hàng bán điện thoại di động Cellphones (https://www.facebook.com/cellphones.befirst.always) với 870 người dùng và 1050 đánh giá cho thấy tính khả quan với độ đo sai số NMAE khoảng 0.13 khi đánh giá mô hình tư vấn.

Từ khóa: hệ tư vấn, ngữ cảnh xã hội, tư vấn xã hội

1 https://facebook.com 2 https://twitter.com 3 https://plus.goolge.com

iii

LỜI CAM ĐOAN

Tôi xin cam đoan các kỹ thuật sử dụng ngữ cảnh xã hội trong hệ tư vấn trên phương

tiện xã hội được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của PGS.TS. Hà Quang Thụy.

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một

cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo.

Thái Thị Hoài

Hà Nội, ngày 8 tháng 12 năm 2014

Tác giả

iv

Mục lục

LỜI CẢM ƠN ........................................................................................................................ i

TÓM TẮT ............................................................................................................................. ii

LỜI CAM ĐOAN ............................................................................................................... iii

Danh sách thuật ngữ và từ viết tắt ....................................................................................... vi

Danh sách bảng ................................................................................................................... vii

Danh sách hình vẽ............................................................................................................. viii

Mở đầu .................................................................................................................................. 1

Chương 1. Giới thiệu chung về hệ tư vấn và tư vấn xã hội .................................................. 3

1.1.Hệ tư vấn truyền thống ............................................................................................... 3

1.1.1.Giới thiệu chung về hệ tư vấn .............................................................................. 3

1.1.2.Bài toán tư vấn truyền thống ............................................................................... 4

1.1.3.Phân loại hệ tư vấn .............................................................................................. 5

1.1.4. Các thách thức trong hệ tư vấn. ........................................................................ 12

1.2.Tư vấn xã hội ............................................................................................................ 14

1.2.1.Phương tiện xã hội ............................................................................................. 14

1.2.2.Khái niệm tư vấn xã hội .................................................................................... 15

1.2.3.Các bài toán chính trong tư vấn xã hội .............................................................. 16

Tóm tắt chương 1 ............................................................................................................ 17

Chương 2. Khai thác quan hệ xã hội trong tư vấn xã hội .................................................. 19

2.1. Ứng dụng lý thuyết xã hội trong khai phá phương tiện xã hội ................................ 19

2.1.1. Lý thuyết xã hội trong vai trò liên quan đến người dùng ................................. 19

2.1.2. Lý thuyết xã hội trong vai trò liên quan đến các mối quan hệ ......................... 21

2.1.3. Lý thuyết xã hội trong nhiệm vụ liên quan về nội dung .................................. 23

2.2. Nhân tử ma trận xác suất trong tư vấn xã hội .......................................................... 24

2.2.1. Ý tưởng chính của phương pháp nhân tử ma trận ............................................ 25

2.2.2. Nội dung của phương pháp .............................................................................. 26

2.2.3. Học tư vấn với các yếu tố mối quan hệ xã hội tiềm ẩn, tường minh................ 27

v

2.3.Khai thác ngữ cảnh xã hội toàn cục, cục bộ cho tư vấn xã hội ................................ 30

2.3.1. Khai thác ngữ cảnh xã hội cục bộ .................................................................... 30

2.3.2. Khai thác bối cảnh xã hội toàn cục ................................................................... 32

2.3.3. Một số phương pháp trích chọn đặc trưng cục bộ, toàn cục ............................ 33

Tóm tắt chương 2 ............................................................................................................ 38

Chương 3. Một mô hình tư vấn xã hội dựa trên quan hệ xã hội trong Facebook. ............. 39

3.1. Giới thiệu sơ bộ ....................................................................................................... 39

3.1.1. Ngữ cảnh xã hội cục bộ .................................................................................... 39

3.1.2. Ngữ cảnh xã hội toàn cục ................................................................................. 39

3.2. Mô hình tổng quan ................................................................................................... 40

3.2.1. Chi tiết các bước của các pha trong mô hình ................................................... 44

Tóm tắt chương 3 ............................................................................................................ 48

Chương 4. Thực nghiệm và đánh giá ................................................................................. 49

4.1. Giới thiệu chung ...................................................................................................... 49

4.2. Phần mềm thực nghiệm ........................................................................................... 50

4.3. Dữ liệu ..................................................................................................................... 51

4.4. Kết quả thực nghiệm và nhận xét ............................................................................ 52

Tóm tắt chương 4 ............................................................................................................ 55

Kết luận ............................................................................................................................... 56

Kết quả đạt được của khóa luận ..................................................................................... 56

Định hướng tương lai: .................................................................................................... 56

Tài liệu tham khảo .............................................................................................................. 57

Tài liệu tiếng Việt ........................................................................................................... 57

Tài liệu tiếng Anh ........................................................................................................... 57

vi

Danh sách thuật ngữ và từ viết tắt

Tiếng Anh/Từ viết tắt Tiếng Việt/Cụm từ đầy đủ

Follower Người theo dõi

GLSPFS Global and local structure preservation framework for feature selection

Item mục (còn được dịch là "mặt hàng", "sản phẩm", "dịch vụ" )

L21RFS Robust Feature Selection via l2,1-norm minimization

LLE Local Linear Embedding

LLFS Local-learning Based Feature Selection

LPP Linear Preserve Projection

LTSA Local Tangent Space Alignment

MF Matrix Factorization

Recommender system | Recommendation system

Hệ tư vấn hoặc hệ gợi ý

Social media Phương tiện xã hội

Social network Mạng xã hội

Social recommendation system Hệ tư vấn xã hội

SoRec Social Recommend

SoReg Social Regularization

Spammer Kẻ gửi thư rác

SPFS Similarity Preserving Feature Selection

TFIDF Term Frequency Inverse Document Frequency

vii

Danh sách bảng

Bảng 1. Ma trận user-item .................................................................................................... 7

Bảng 2. Ví dụ về ma trận user-item .................................................................................... 25

Bảng 3. Cấu hình hệ thống thực hiện thực nghiệm ............................................................ 50

Bảng 4. Các công cụ phần mềm được sử dụng .................................................................. 51

viii

Danh sách hình vẽ

Hình 1. 1. Tư vấn dựa trên nội dung .................................................................................... 6

Hình 1. 2. Tư vấn dựa trên lọc cộng tác ............................................................................... 8

Hình 1. 3. Tư vấn dựa trên phương pháp lai ...................................................................... 12

Hình 1. 4. Thống kê sự phát triển ngày càng tăng của Twitter và Facebook[6] ................ 15

Hình 1. 5. Thông tin xã hội được biểu diễn bằng ma trận user - user S[6] ........................ 16

Hình 1. 6. Dự đoán liên kết bằng cách sử dụng vector đặc trưng cho mỗi cặp người

dùng[6] ................................................................................................................................ 17

Hình 2. 1. Đồ thị kết nối xã hội [11] .................................................................................. 28

Hình 2. 2. Ma trận user-item tương ứng[11] ...................................................................... 28

Hình 2. 3. Ma trận dự đoán đánh giá user-item[11] ........................................................... 28

Hình 2. 4. Ví dụ người dùng kết nối xã hội với sở thích tương tự. .................................... 31

Hình 3. 1. Một mô hình tư vấn trên phương tiện xã hội Facebook. ................................... 43

Hình 3. 2. Một đoạn dữ liệu mẫu ........................................................................................ 45

Hình 3. 3. Một đoạn dữ liệu đã gán nhãn quan điểm của người dùng. .............................. 46

Hình 4. 1. Một đoạn dữ liệu về các comment của sản phẩm tách được ............................. 52

Hình 4. 2. Thông tin người dùng thu thập được ................................................................. 52

Hình 4. 3. Kết quả xếp hạng người dùng. ........................................................................... 53

Hình 4. 4. Kết quả thực nghiệm cho hạng của sản phẩm. .................................................. 54

1

Mở đầu

Ngày nay, các phương tiện xã hội phát triển rất nhanh chóng, tăng theo cấp số

nhân. Với sự phát triển đó, phương tiện xã hội cũng đã góp phần làm giàu nguồn tài nguyên thông tin cho khai phá dữ liệu, mở ra miền dữ liệu mới, đa dạng hơn cho khai phá dữ liệu. Theo số liệu thống kê4, đến cuối tháng 9 năm 2014, số người dùng tích cực trên

trang mạng xã hội này là 1,35 tỷ người, tăng 14% so với cùng kỳ năm 2013. Với Twitter, số lượng các Tweet sinh ra trong một ngày đạt mức 400 triệu (tính đến tháng 6 năm 2012,

theo Dave Feinlenib5). Số lượng người dùng trong mạng tăng, dẫn đến số lượng các kết nối giữa các người dùng với nhau cũng tăng lên đáng kể. Điều này cho thấy tiềm năng

khai phá dữ liệu trên các phương tiện xã hội là rất lớn. Bên cạnh đó, nó kéo theo vấn đề quá tải thông tin, gây khó khăn không nhỏ cho việc thực hiện khai phá dữ liệu cũng như thực hiện các ứng dụng liên quan, trong đó có hệ tư vấn. Các hệ thống tư vấn truyền

thống thướng dựa vào đánh giá của các chuyên gia với các bộ tiêu chuẩn cụ thể, hoặc dựa vào các đánh giá của người dùng. Tuy nhiên, với lượng dữ liệu khổng lồ và phong phú như vậy thì số lượng chủng loại, lĩnh vực là rất lớn. Như vậy, hệ tư vấn chỉ dựa vào con người không thể đảm đương nổi. Trong thực tế, khi cần tham khảo ý kiến của người khác, chúng ta thường tìm đến bạn bè, người thân để nghe họ tư vấn. Phương pháp này tuy độ chính xác có thể cao nhưng yêu cầu về tính nhanh chóng lại không thể đáp ứng ngay tức

thì.

Hệ tư vấn giúp cho người dùng hiểu hơn về các sản phẩm của doanh nghiệp, hay giúp cho người dùng thao tác tốt hơn các dịch vụ trực tuyến. Từ đó giúp cho các doanh

nghiệp, các nhà cung cấp dịch vụ cải tiến tốt hơn hệ thống của mình để đảm bảo hài lòng chủ quan của khách hàng, mở rộng số lượng người dùng quan tâm, quảng bá thương hiệu,

hình ảnh của doanh nghiệp, dịch vụ… Mục tiêu của bài toán tư vấn là đưa ra các gợi ý có thể sát nhất với sở thích, sự quan tâm của người dùng.

Khóa luận này đề cập tới hệ tư vấn có sử dụng ngữ cảnh xã hội, bao gồm ngữ cảnh xã hội toàn cục, cục bộ. Ngữ cảnh xã hội toàn cục xét đến danh tiếng của người dùng trong toàn mạng xã hội. Ngữ cảnh xã hội cục bộ xét đến quan hệ bạn bè, hàng xóm, chỉ k

láng giếng gần nhất của người dùng. Hướng tiếp cận này được dựa trên những nghiên cứu gần đây của Jiliang Tang và cộng sự [18].

Nội dung của khóa luận được chia thành các chương như sau:

Chương 1: Khóa luận giới thiệu khái quát về hệ tư vấn truyền thống cũng như hệ tư vấn xã hội, đồng thời khóa luận cũng trình bày một số phương pháp để giải quyết bài

4 http://investor.fb.com 5 http://www.forbes.com/sites/davefeinleib/

2

toán tư vấn truyền thống và bài toán tư vấn xã hội. Ngoài ra, chương này cũng nêu lên cái nhìn tổng quan về xu hướng phát triển của một số phương tiện xã hội phổ biến hiện nay như Twitter, Facebook…Từ đó chúng ta có thể thấy được tiềm năng khai thác mạng xã hội để sử dụng vào hệ tư vấn trên phương tiện xã hội.

Chương 2: Khóa luận trình bày chi tiết phương pháp ma trận nhân tử trong tư vấn cũng như tiềm năng khai thác ngữ cảnh trên phương tiện xã hội trong tư vấn. Nổi bật nhất là trong chương này là đề cập đến ý tưởng thực hiện việc khai thác ngữ cảnh vào hệ tư

vấn được áp dụng trong khóa luận.

Chương 3: Khóa luận trình bày về tư tưởng chính của phương pháp thực hiện bài

toán tư vấn trên phương tiện xã hội Facebook. Đồng thời, khóa luận giới thiệu chi tiết các pha cũng như từng bước thực hiện trong mô hình giới thiệu với miền dữ liệu là tập các

đánh giá sản phẩm điện thoại thông minh của Samsung.

Chương 4: Khóa luận trình bày một số thực nghiệm việc đưa ra sản phẩm tư vấn dưuạ trên các đánh giá của người dùng và một số đặc trưng với miền sản phẩm điện thoại

di động thông minh của Samsung. Kết quả thực nghiệm cho kết quả sai số trung bình tuyệt đối chuẩn xấp xỉ 0.13, chứng tỏ mô hình thực nghiệm cho kết quả tốt.

Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát triển tương lai.

3

Chương 1. Giới thiệu chung về hệ tư vấn và tư vấn xã hội

1.1. Hệ tư vấn truyền thống

1.1.1. Giới thiệu chung về hệ tư vấn

Hệ tư vấn (recommender system hay recommendation system, còn được gọi là hệ gợi ý) là công cụ phần mềm và kỹ thuật cung cấp các tư vấn về các mục (item; mục có thể là sản phẩm, dịch vụ...) được sử dụng cho một người dùng [12]. Các tư vấn liên quan đến quá trình ra các quyết định khác nhau như nên mua sản phẩm nào, nên nghe loại nhạc nào, hoặc nên đọc các tin tức trực tuyến (on-line) nào v.v.

Mục là tập nội dung đã được sử dụng để biểu thị những gì mà hệ thống tư vấn cung cấp cho người dùng. Một hệ tư vấn truyền thống thường tập trung tư vấn một mục nhất

định (ví dụ, đĩa CD, tin tức) và có thiết kế phù hợp, giao diện đồ họa và các lõi kỹ thuật tư vấn được sử dụng để cung cấp các tư vấn hữu ích và hiệu quả cho từng loại mục cụ thể.

Hệ tư vấn thường hướng tới tính cá nhân hóa. Một trường hợp điển hình là một cuốn sách được hệ thống tư vấn cho người dùng lựa chọn để đọc. Một trong các trang

Web nổi tiếng là Amazon.com, các trang Web sử dụng một hệ thống tư vấn để cá nhân hóa các cửa hàng trực tuyến cho mỗi khách hàng. Từ khi hệ thống tư vấn được cá nhân hóa, những người dùng khác nhau hoặc các nhóm người dùng sẽ nhận được các tư vấn khác nhau. Ngoài ra, cũng có những tư vấn không mang tính cá nhân. Đặc biệt là trong tạp chí, báo.

Trong trường hợp đơn giản nhất, tư vấn cho người dùng thường dựa vào danh sách xếp hạng của các tập mục (sản phẩm). Trong phương pháp xếp hạng này, hệ tư vấn cố

gắng dự đoán những mục hoặc dịch vụ phù hợp nhất, dựa trên sở thích của người dùng. Để có thể gợi ý tốt nhất cho người dùng, hệ tư vấn thu thập sở thích của người dùng, ví dụ như dựa vào bảng xếp hạng cho các mục hoặc được suy ra bằng cách phân tích lịch sử

hành vi mua, đánh giá mục của người dùng.

Hệ tư vấn được phát triển từ một quan sát khá đơn giản: chúng ta thường đưa ra các

lựa chọn dựa trên các tư vấn được cung cấp bởi những người xung quanh trong cuộc sống thường ngày, các quyết định hàng ngày. Ví dụ, chúng ta thường dựa vào những gì mà

đồng nghiệp của mình khuyên khi lựa chọn một cuốn sách để đọc; người sử dụng lao động thường dựa vào người viết thư giới thiệu của ứng viên để đưa ra quyết định tuyển dụng; và khi lựa chọn một bộ phim để xem, người dùng có xu hướng tìm và dựa vào các

phim có nhận xét của một nhà phê bình phim và xuất hiện trong các trang báo mà họ đọc.

Như đã đề cập ở trên, nghiên cứu về hệ thống tư vấn xã hội là tương đối mới so với nghiên cứu các công cụ, hệ thống tư vấn và kỹ thuật cổ điển khác (ví dụ, cơ sở dữ liệu

4

hoặc công cụ tìm kiếm). Hệ thống tư vấn phát triển lên như một lĩnh vực nghiên cứu độc lập vào giữa thập niên 90.. Trong những năm gần đây, sự quan tâm về hệ tư vấn đã tăng lên đáng kể, các sự kiện sau đây chứng minh điều đó [12]:

1. Hệ tư vấn đóng vai trò quan trọng trong các trang web như các trang internet được

đánh giá cao như: Amazon.com, Youtube, Netflix, Yahoo….Hơn nữa, nhiều công ty truyền thông đang phát triển và triển khai các hệ tư vấn như là một phần của các dịch vụ mà họ cung cấp cho các thuê bao của họ. Ví dụ Netflix, dịch vụ cho thuê

phim trực tuyến, trao tặng một giải thưởng 1.000.000 đô la cho đội đầu tiên thành công trong việc cải tiến đáng kể hiệu suất của hệ thống tư vấn của họ.

2. Các hội nghị, hội thảo chuyên nghiên cứu về lĩnh vực này đã được tổ chức. Đặc biệt là ACM Recommender Systems (RecSys), thành lập năm 2007 và hiện giờ

đây là sự kiện được tổ chức thường niên vào đầu mỗi năm trong nghiên cứu công nghệ tư vấn và các ứng dụng liên quan. Ngoài ra, các buổi trao đổi dành riêng cho hệ tư vấn thường được đề cập trong các hội nghị truyền thống hơn trong lĩnh vực

cơ sở dữ liệu, hệ thống thông tin và hệ thống thích nghi. Trong số các hội nghị, đáng được nhắc đến nhất là ACM SIGIR Special Interest Group on Information

Retrieval, mô hình hóa người dùng, thích ứng và cá nhân (UMAP), và ACM’s Special Interest Group on Management of Data (SIGMOD).

3. Tại các tổ chức giáo dục đại học trên khắp thế giới, đại học và sau đại học có các khóa học được tập trung hoàn toàn vào hệ tư vấn; hướng dẫn về hệ tư vấn rất phổ biến tại các hội nghị khoa học máy tính; và gần đây là một số cuốn sách giới thiệu các kỹ thuật tư vấn đã được xuất bản, chẳng hạn [12, 18].

4. Đã có một số công bố đặc biệt trong tạp chí khoa học bao gồm các nghiên cứu và

phát triển trong lĩnh vực hệ tư vấn. Trong số các tạp chí có những công trình chuyên về hệ tư vấn như: hệ truyền thông AI (2008), hệ thống thông minh

IEEE(2007), tạp chí quốc tế về thương mại điện tử (2006), tạp chí quốc tế về khoa học và ứng dụng (2006), giao dịch trên máy tính ACM tương tác người – máy (2005), và giao dịch ACM trên hệ thống thông tin.

Từ những dẫn chứng đã được nói ở trên, chúng ta đã có được một cái nhìn tổng quan, toàn diện về hệ tư vấn. Trong mục tiếp theo, tôi xin trình bày nội dung bài toán

trong hệ tư vấn truyền thống.

1.1.2. Bài toán tư vấn truyền thống

Theo Adomavicius và Tuzhilin [4], trong hầu hết các trường hợp, bài toán tư vấn được coi là bài toán ước lượng trước hạng (rating) của các mục (phim, đĩa CD, nhà hàng,

sách…) chưa được người dùng xem xét. Việc ước lượng này thường dựa trên những đánh giá đã có của chính người dùng đó hoặc từ những người dùng khác. Những mục có hạng

cao sẽ được dùng để tư vấn.

5

Một cách hình thức, bài toán tư vấn được mô tả như sau [4]:

Cho tập người dùng U = {u1, u2, …, un} và tập mục V = {v1, v2, …, vm}, trong đó n là số lượng người dùng, m là số lượng mục. Một người dùng ui đánh giá một tập mục với

một số điểm nào đó. Chúng ta sử dụng R n m là ma trận đánh giá, trong đó Rij là điểm

số được đánh giá nếu người dùng ui đánh giá mục vj, trong các trường hợp còn lại chúng tôi sử dụng dấu “?” để biểu diễn điểm số của mục chưa được đánh giá. Thường thì ma

trận đánh giá rất thưa, điều đó cho thấy có rất nhiều đánh giá chưa biết trong R. ví dụ, theo [4, Sarwar và cộng sự, 2001] nhận định rằng các mật độ của ma trận đánh giá trong hệ thống tư vấn thường ít hơn 1% . Nếu mục vj có thuộc tính, chúng tôi sử dụng xj

là đại diện của vj trong đó là số thuộc tính. Nhiệm vụ của hệ thống tư vấn là dự

đoán hạng mà người dùng ui đánh giá một mục vj chưa được đánh giá hoặc giới thiệu một số mục cho người dùng nhất định, ví dụ, để dự đoán hạng chưa biết trong R dựa trên hạng nổi tiếng.

1.1.3. Phân loại hệ tư vấn

Có rất nhiều cách để dự đoán, ước lượng hạng/điểm cho các mục như sử dụng học

máy SVM, lý thuyết xấp xỉ, các thuật toán dựa trên kinh nghiệm… Theo [2], dựa trên cách dùng để ước lượng hạng của mục, các hệ thống tư vấn thường được phân thành 3

loại chính:

o Dựa trên nội dung (Content-based): người dùng được tư vấn những mục

tương tự như các mục từng được họ đánh giá cao. o Dựa trên lọc cộng tác(Collaborative filtering based): người dùng được tư

vấn những mục mà những người có cùng sở thích với họ đánh giá cao. o Lai (Hybrid, hoặc kết hợp): Kết hợp cả hai phương pháp trên để tư vấn cho

người dùng.

6

1.1.3.1. Phương pháp dựa trên nội dung

Hình 1. 1. Tư vấn dựa trên nội dung

Hệ tư vấn dựa trên nội dung có nguồn gốc từ truy hồi thông tin(information retrieval) nghiên cứu và lọc thông tin (information fitlering). Hệ tư vấn gợi ý các mục tương tự như những thứ mà người dùng yêu thích trong quá khứ. Hầu hết các hệ thống tư

vấn dựa trên nội dung hiện nay tập trung vào tư vấn các mục là các văn bản thông tin như tin tức, sách và tài liệu [2]. Nội dung trong các hệ thống thường được mô tả bằng các từ

khóa k và thông tin của mỗi từ khóa trong tài liệu thường được tính bởi trọng số TFIDF. Trọng số TF của một từ khóa trong một tài liệu cho biết tần suất của từ khóa trong tài liệu, trong khi trọng số IDF xác định nghịch đảo tần số của các từ khóa trong tài liệu.

Điểm tiến bộ so với phương pháp tiếp cận cũ là hiện nay, hệ tư vấn có sử dụng hồ sơ về người dùng (thông tin về sở thích, nhu cầu, …). Hồ sơ này xây dựng được dựa trên những thông tin được người dùng cung cấp thông qua đánh giá qua các khảo sát (cung cấp trực tiếp) hoặc thông qua lịch sử giao dịch của người dùng (gián tiếp).

Theo [5], tập người dùng và mục được biểu diễn dưới dạng các vector. ij,k biểu diễn trọng số của từ khóa k trong mục vj và nội dung của vj có thể được biểu diễn bởi Ij = (ij,1, ij,2, …, ij,k); uj,k biểu diễn hồ sơ của người dùng với từ khóa k mà một người dùng ui sử

dụng khi đánh giá một mục nào đó trong quá khứ. Khi đó, tập người dùng ui sau khi gán trọng số được biểu diễn bởi vector Ui = (ui,1, ui,2, …, ui,k). Để tính độ tương tự giữa người

dùng i và mục j, có thể sử dụng độ tương đồng cosin giữa hai vector Ui và Ij:

(1.1)

7

Trong hệ tư vấn dựa trên nội dung, chúng ta tính toán để lấy một danh sách các mục có độ tương tự cao và sau đó tư vấn những mục này cho người dùng.

Ngoài ra, hệ tư vấn dựa trên nội dung còn sử dụng các phương pháp phân lớp, phân cụm truyền thống khác như: phân lớp Bayes, cây quyết định, mạng nơron nhân

tạo…

1.1.3.2. Phương pháp lọc cộng tác

Giả định cơ bản của bộ lọc cộng tác là nếu người dùng đã đồng ý với nhau trong quá khứ, thì họ có nhiều khả năng đồng ý với nhau trong tương lai hơn là đồng ý với người dùng được lựa chọn ngẫu nhiên. Đồng ý với nhau ở đây có nghĩa là, người dùng đã

chấp nhận tư vấn từ người dùng khác, và dữ liệu này đã được lưu trong cơ sở dữ liệu của hệ thống để phục vụ cho việc tư vấn sau này. Bằng phương pháp này, hệ thống cộng tác dự đoán độ phù hợp của một mục v với người dùng u dựa trên độ tương đồng giữa người dùng uj và v, trong đó, uj là người dùng có cùng sở thích với u. Ví dụ, để tư vấn một bộ phim cho người dùng u, đầu tiên hệ thống sẽ tìm những người có cùng sở thích phim ảnh với u. Sau đó, những bộ phim mà những người dùng này đánh giá cao sẽ được dùng để tư vấn cho u.

Lọc cộng tác sử dụng một ma trận user-item, trong đó các phần tử của ma trận biểu thị hạng mà người dùng đánh giá mục tương ứng hoặc có giá trị rỗng khi người dùng

chưa đánh giá. Ví dụ, ma trận user-item dưới đây cho biết hạng của một số phim hoạt hình:

Lion King Aladdin Mulan Anastasia

John 3 0 3 3

Joe 5 4 0 2

Jill 1 2 4 2

Jane 3 ? 1 0

Jorge 2 2 0 1

Bảng 1. Ma trận user-item

Trong ví dụ trên, đánh giá theo thang điểm 5, trong đó 5 là tốt nhất, 0 là xấu nhất, nếu một thực thể (i,j) trong ma trận user-item được đánh giá là 4 có nghĩa là người dùng i thích mục j. Dấu “?” để chỉ vị trí mà hệ tư vấn dự đoán đánh giá mục.

Hiện nay, phương pháp lọc cộng tác được phân loại thành phương pháp dựa trên

kinh nghiệm (memory-based) và phương pháp dựa trên mô hình (model-based).

8

Hình 1. 2. Tư vấn dựa trên lọc cộng tác

a. Hệ thống cộng tác dựa trên kinh nghiệm

Lọc cộng tác dựa trên kinh nghiệm thường dựa vào lịch sử các giao dịch của người dùng trong quá khứ. Lọc cộng tác dựa trên kinh nghiệm, có thể xảy ra một trong các

trường hợp sau (hoặc cả hai):

o Người dùng với xếp hạng tương tự trước cho mục có khả năng đánh giá các mục

tương tự trong tương lai. o Mục đã được xếp hạng tương tự trước đó từ người dùng có khả năng nhận được

xếp hạng tương tự từ những người dùng trong tương lai.

Với giả định đầu tiên, các kỹ thuật dựa trên kinh nghiệm là một thuật toán lọc cộng tác dựa trên người dùng, và với giả định thứ hai, đó là một thuật toán lọc cộng tác dựa

trên sản phẩm. Trong cả hai trường hợp, người dùng(hoặc mục) cộng tác với nhau giúp lọc ra nội dung không liên quan(người dùng khác hoặc mục khác). Để xác định sự tương

đồng giữa người dùng hoặc các mục, trong lọc cộng tác, hai biện pháp tính toán thường được sử dụng là độ tương đồng Cosine và độ tương quan Pearson. Tuy nhiên, phổ biến

hơn cả vẫn là độ tương đồng Cosin. Đặt ru,i là hạng mà người dùng u đánh giá mục i, ur

là trung bình các đánh giá của người dùng u. là trung bình các đánh giá của mục i. Độ

tương đồng Cosine giữa người dủng u và v là:

(1.2)

9

Như đã đề cập ở trên, hệ thống lọc cộng tác dựa trên kinh nghiệm có thể được phân thành hai loại:

o Lọc cộng tác dựa trên người dùng (user-based) o Lọc cộng tác dựa trên mục (item-based)

i) Lọc cộng tác dựa trên người dùng

Trong phương pháp này, chúng tôi dự đoán hạng của người dùng u cho mục i bằng cách tìm những người dùng tương tự nhất với u và sử dụng kết hợp hạng của những

người dùng cho mục i như đánh giá dự đoán của người dùng u cho mục i. Bỏ qua nhiễu và hiệu quả tính toán, chúng tôi giới hạn số lượng người tương đồng bởi một con số cụ thể. Những người tương đồng nhất với người dùng u được gọi là hàng xóm của u, ký hiệu là N(u). Trong lọc cộng tác dựa trên người dùng, hạng của người dùng u cho mục i được

tính bởi công thức:

(1.4)

Trong đó số người dùng là hàng xóm của u là N(u) được xác định trước. Ví dụ, N(u) là top 10 người tương đồng nhất với u.

Ví dụ, với dữ liệu đã cho ở bảng 1, rJane, Aladdin là chưa được xác định. Trung bình các đánh giá của người dùng được tính như sau:

John = , Joe =

Jill = , Jane = , Jorge =

Sử dụng độ tương đồng Cosin, ta tính toán được độ tương đồng của Jane và những người khác như sau:

sim(Jane, John) = sim(Jane, Joe) =

sim(Jane, Jill) = = 0.48, sim(Jane, Jorge) =

Bây giờ, giả sử số hàng xóm của Jane là 2, thì Jorge và Joe là hai người có độ tương đồng gần với Jane nhất. Vì vậy, đánh giá của Jane cho Aladdin được tính từ lọc cộng tác dựa trên người dùng sẽ là:

rJane,Aladdin = Jane + +

10

= 1.33 +

ii) Lọc cộng tác dựa trên nội dung

Với phương pháp này, chúng ta tính toán đánh giá trung bình của mỗi người dùng khác nhau và tìm những người dùng tương đồng nhất cho người mà chúng ta đang tìm

kiếm các tư vấn. Tuy nhiên, hầu hết các hệ thống trực tuyến, người dùng không có quá nhiều đánh giá, vì vậy, giá trị trung bình và độ tương tự có thể không đáng tin cậy. Điều này thường có kết quả khác nhau về độ tương đồng người dùng khi có đánh giá mới được

thêm vào hệ thống. Nói cách khác, hệ thống thường có nhiều đánh giá và trung bình các đánh giá và độ tương đồng giữa chúng có thể ổn định hơn. Trong lọc cộng tác dựa trên

nội dung, chúng ta thực hiện lọc cộng tác bằng cách tìm các sản phẩm tương tự nhất. Đánh gảá của người dùng u cho mục i được tính bởi công thức:

(1.5)

Trong đó, i và j tương ứng là giá trị trung bình đánh giá của mục i, j.

Ví dụ trong bảng 1, đánh giá của Jane với Aladdin đang còn trống. Giá trị trung bình các đánh giá của mỗi mục(bộ phim) là:

Lion King = , Aladdin =

Mulan = = 1.6, Anastasia = = 1.6

Sử dụng độ tương đồng Cosin, độ tương tự giữa Aladdin với các mục khác được tính như sau:

sim(Aladdin, Lion King) =

sim(Aladdin, Mulan) =

sim(Aladdin, Anastasia) =

Giả sử N(u) là 2, thì Lion King và Anastasia là hai hàng xóm có độ tương tự gần nhất với Aladdin. Vì vậy, đánh giá của Jane với Aladdin được tính từ phương pháp lọc cộng tác

dựa trên mục là:

rJane,Aladdin = Aladdin +

11

+

= 2 +

b) Hệ thống cộng tác dựa trên mô hình

Phương pháp lọc cộng tác dựa trên mô hình giả sử có một mô hình để tạo ra các đánh giá và áp dụng các kỹ thuật khai phá dữ liệu và học máy từ tập dữ liệu huấn luyện, cái mà có thể được sử dụng để đưa ra dự đoán cho xếp hạng chưa biết. Trong phương

pháp dựa trên mô hình, mục đích chính là dự đoán hạng chưa biết dựa trên độ tương đồng giữa các người dùng hoặc các mục. Trong phương pháp này, giả sử rằng có một mô hình

cơ bản điều chỉnh đánh giá của người dùng. Chúng tôi mong muốn nghiên cứu một mô hình và sau đó sử dụng mô hình để dự đoán hạng chưa được đánh giá. Có rất nhiều phương pháp lọc cộng tác dựa trên học máy như các kỹ thuật học máy(mạng nơtron nhân tạo) và các kỹ thuật trích chọn đặc trưng (SVD – một kỹ thuật đại số nhằm làm giảm số chiều của ma trận) có thể được sử dụng.

SVD là một kỹ thuật đại số tuyến tính, cho một ma trận thực X m n , m ≥ n, nhân

tử thành 3 ma trận, X=U VT . Trong đó, U m m và V m n là các ma trận trực giao

và ∑ m n là ma trận chéo. Các mục của những ma trận tương đương với ma trận ban

đầu, do đó, không có thông tin bị mất. Do đó, quá trình này gọi là lossless.

Hệ thống tư vấn dựa trên lọc cộng tác có thể vượt qua nhiều thiếu sót của hệ tư vấn dựa trên nội dung. Ví dụ, hệ tư vấn dựa trên lọc cộng tác sử dụng thông tin đánh giá, do vậy, chúng phụ thuộc vào tên miền, và có thể tư vấn cho bất kỳ mục nào. Tuy nhiên, hệ tư vấn dựa trên lọc cộng tác có những hạn chế riêng như vấn đề bắt đầu nguội(cold-start) (mục mới hoặc người dùng mới) và vấn đề dữ liệu thưa.

1.1.3.3. Phương pháp lai

Để tránh các hạn chế trong phương pháp lọc cộng tác và dựa vào nội dung, các tiếp cận kết hợp cả hai phương pháp trên được sử dụng. Có thể được chia thành 3 loại kết hợp như sau [4]:

o Cài đặt hai phương pháp riêng rẽ sau đó kết hợp dự đoán của chúng.

o Tích hợp các đặc trưng của phương pháp dựa trên nội dung vào phương pháp lọc cộng tác dựa trên mô hình.

o Tích hợp các đặc trưng của phương pháp lọc cộng tác vào mô hình dựa vào

nội dung.

12

Hình 1. 3. Tư vấn dựa trên phương pháp lai

i) Kết hợp hai phương pháp riêng rẽ

Theo chiến lược này, các phương pháp dựa vào nội dung và dựa trên lọc cộng tác được thực hiện một cách riêng rẽ và sau đó, kết hợp các dự đoán của chúng lại để có những tư vấn cuối cùng. Nhiều cách khác nhau được đề xuất; Jiliang Tang và cộng sự [4] giới thiệu cách dựa trên một chương trình bỏ phiếu của Pazzani (1999) và cách kết hợp

tuyến tính các đánh giá của Claypool và cộng sự (1999), để kết hợp dự đoán từ phương pháp dựa vào nội dung và dựa vào lọc cộng tác.

ii) Thêm đặc trưng của mô hình dựa trên nội dung vào mô hình cộng tác

Hệ thống sử dụng chiến lược dựa vào nội dung hồ sơ người dùng và các mục thường được đánh giá để tính điểm tương đồng giữa các người dùng với nhau. Những hệ

thống này có thể khắc phục vấn đề dữ liệu thưa của phương pháp lọc cộng tác và tư vấn các mục trực tiếp khi hạng của mục cao so với hồ sơ của người dùng.

iii) Thêm đặc trưng của mô hình cộng tác vào mô hình dựa trên nội dung

Phương pháp phổ biến nhất trong chiến lược này là sử dụng một kỹ thuật giảm số chiều trên tập hồ sơ người dùng của phương pháp dựa trên nội dung. Ví dụ, theo Jiliang Tang và cộng sự [4], Soboroff và Nicholas (1999) sử dụng phân tích ngữ nghĩa ẩn để tạo ra cái nhìn cộng tác với tập hồ sơ người dùng (mỗi hồ sơ được biểu diễn bởi một từ khóa

vector), giúp tăng hiệu quả tư vấn so với phương pháp tiếp cận dựa trên nội dung thuần túy.

1.1.4. Các thách thức trong hệ tư vấn.

Hệ tư vấn có nhiều thách thức, một trong số đó được đề cập ở dưới đây:

13

1.1.4.1. Vấn đề bắt đầu nguội

Nhiều hệ tư vấn sử dụng thông tin dữ liệu hoặc thông tin được cung cấp bởi người

dùng để tư vấn các mục, nhà sản xuất và những mục được yêu thích. Tuy nhiên, khi một người dùng lần đầu truy cập vào trang web, họ chưa hề mua bất cứ một mục nào: họ chưa có lịch sử truy cập. Điều này tạo ra khó khăn khi muốn cung cấp những thông tin mà người dùng đó có thể sẽ thích khi họ bắt đầu truy cập vào một trang web. Vấn đề này

được gọi là vấn đề bắt đầu nguội (Cold-start Problem). Như ví dụ sau, người dùng truy cập vào một cửa hàng cho thuê phim trực tuyến. Cửa hàng này không có ý tưởng gì để đề xuất cho người dùng hơn là để họ tự xem và vì vậy không thể có bất kỳ tư vấn nào phù

hợp với sở thích của người dùng. Để địa chỉ này được lưu lại, trang mạng thường yêu cầu người dùng đánh giá một vài bộ phim trước khi họ bắt đầu tư vấn những bộ phim khác

cho người dùng đó. Những trang mạng khác yêu cầu người dùng điền thông tin cá nhân như sở thích. Thông tin này được máy chủ (server) xử lý và làm đầu vào cho thuật toán tư vấn.

1.1.4.2. Dữ liệu thưa

Tương tự với vấn đề bắt đầu nguội, dữ liệu thưa (Data sparsity) xảy ra khi thông tin đánh giá của người dùng chưa có. Khác với vấn đề bắt đầu nguội, dữ liệu thưa thường do hệ thống. Không phải tất cả các người dùng đều tham gia đánh giá tất cả các sản phẩm. Xảy ra dữ liệu thưa khi mà người dùng tham gia đánh giá ít sản phẩm. Nói cách khác, số lượng sản phẩm được đánh giá bởi người dùng quá ít.

1.1.4.3. Các cuộc tấn công

Hệ tư vấn có thể bị tấn công (Attacks) để tư vấn mục khác không được đề nghị.

Trong trường hợp này, xem xét một hệ thống tư vấn mục dựa vào các đánh giá tương tự (ví dụ ống kính A được tư vấn cho camera B bởi vì cả hai đều có đánh giá là 4). Bây giờ,

một kẻ tấn công có hiểu biết về thuật toán tư vấn có thể tạo một tài khoản người dùng ảo và đánh giá ống kính C (mục này không tốt hơn ống kính A) cao và có thể được đánh giá ở mức 4. Bằng cách này, hệ tư vấn sẽ đề xuất C với camera B cũng tốt như A. Đính kèm này được gọi là “push attack” (đẩy tấn công), bời vì nó đẩy hạng cao lên để hệ thống bắt đầu tư vấn mục khác và những mục khác thì không nên được đề xuất.

1.1.4.4. Quyền riêng tư

Có nhiều thông tin trong một hệ thống tư vấn có về người dùng, hệ tư vấn tốt hơn

cung cấp cho nhiều người dùng. Tuy nhiên, người dùng thường tránh tiết lộ thông tin của mình. Do đó mà đây là một thách thức trong bảo vệ quyền riêng tư (Privacy) của người

dùng.

14

1.1.4.5. Giải thích

Hệ tư vấn thường đề nghị các mục mà bỏ qua giải thích (Explantion) tại sao chúng

làm vậy. Ví dụ, khi một vài mục được mua cùng nhau bởi nhiều người dùng, hệ thống sẽ tư vấn cho những người dùng mới các sản phẩm nên mua cùng nhau. Tuy nhiên, hệ thống không biết tại sao những sản phẩm ấy lại được mua cùng nhau. Người dùng có thể cho nhiều lý do để mua các sản phẩm cùng nhau.

1.2. Tư vấn xã hội

1.2.1. Phương tiện xã hội

Với sự gia tăng của phương tiện truyền thông xã hội, các trang web đã trở thành một lĩnh vực truyền thông xã hội sôi động và linh hoạt, trong đó tỷ lệ các cá nhân trên

toàn thế giới tương tác, chia sẻ bài viết, và thực hiện nhiều hoạt động hàng ngày là rất lớn. Phương tiện xã hội cho phép chúng ta được kết nối và tương tác với nhau ở bất cứ đâu và

bất cứ lúc nào; quan sát hành vi của mọi người một cách tổng thể với cách nhìn mới. Cách nhìn mới của phương tiện xã hội này cho chúng ta cơ hội để hiểu các cá nhân ở một

mức độ nhất định và để cái tôi của con người thực hiện các hành vi nếu có thể. Phương tiện xã hội có thể được coi là một thế giới của các nguyên tử xã hội(ví dụ, cá nhân), các thực thể(ví dụ: nội dung, các trang web, trang mạng…) và tương tác giữa các cá nhân và thực thể.

Phương tiện xã hội là sự tương tác xã hội giữa con người với nhau. Ở đó, chúng ta có thể tạo, chia sẻ hoặc thay đổi thông tin, quan điểm, hình ảnh, video trong không gian giao tiếp và mạng ảo. Việc sử dụng phổ biến của phương tiện xã hội tạo ra thông tin xã

hội với một tốc độ chưa từng có.Ví dụ, Facebook, mạng xã hội tạo ra 35,000,000 mối quan hệ bạn bè trực tuyến, số người dùng phổ biến trên Twitter lên đến 37,974,138 người theo dõi(follower)[4]. Ngoài ra, hiện nay còn có các trang mạng xã hội phổ biến, được nhiều người dùng quan tâm như Youtube, Google+…

15

Hình 1. 4. Thống kê sự phát triển ngày càng tăng của Twitter và Facebook[6]

Sự phát triển nhanh chóng của các phương tiện xã hội cung cấp một lượng dữ liệu

khổng lồ cho bài toán khai phá dữ liệu. Từ đó, ta có thể thu thập dữ liệu để bổ sung vào kho dữ liệu đã có, làm giàu thông tin, cung cấp nhiều tiềm năng cho hệ tư vấn.

1.2.2. Khái niệm tư vấn xã hội

Định nghĩa về tư vấn xã hội

Theo Jiliang Tang và cộng sự [4], tư vấn xã hội được Kautz và cộng sự nghiên cứu lần đầu tiên vào năm 1997 và đã thu hút được sự chú ý ngày càng tăng với sự phổ biến

ngày càng lớn của phương tiện xã hội. Tuy nhiên, chưa có một khái niệm nào được tuyên bố chính thức. Tư vấn xã hội được định nghĩa trên hai khía cạnh: theo định nghĩa hẹp và

theo định nghĩa rộng [4].

Theo nghĩa hẹp, tư vấn xã hội là hệ tư vấn truyền thống có sử dụng các quan hệ xã hội trực tuyến như là một đầu vào bổ sung (chẳng hạn, tăng cường một tư vấn hiện có

nhờ các dấu hiệu xã hội bổ sung). Tư vấn xã hội có thể là quan hệ niềm tin, quan hệ bạn bè, quan hệ thành viên hoặc quan hệ theo dõi. Trong định nghĩa này, hệ thống tư vấn xã

hội giả định rằng người dùng có liên quan với nhau khi họ thiết lập một mối quan hệ xã hội [11]. Ví dụ, sở thích của người dùng có thể sẽ tương đương hoặc bị ảnh hưởng bởi kết nối bạn bè của họ. Theo giả thiết này, tư vấn xã hội thúc đẩy mối tương quan sử dụng hàm ẩn bởi mối quan hệ xã hội để cải thiện hiệu suất của tư vấn.

Theo định nghĩa rộng, tư vấn xã hội là hệ tư vấn bất kỳ hướng tới lĩnh vực phương tiện xã hội. Định nghĩa rộng đề cập tới: (1) tư vấn về đối tượng bất kỳ trong phương tiện xã hội: mục(như định nghĩa hẹp), thẻ(tag), người, cộng đồng; (2) sử dụng không chỉ quan

hệ xã hội mà mọi dữ liệu phương tiện sẵn có như gán thẻ xã hội, tương tác người dùng, hành vi kích chuột...

16

1.2.3. Các bài toán chính trong tư vấn xã hội

Người dùng trên phương tiện xã hội được mô tả bằng 3 loại thông tin: thông tin xã

hội, thông tin nội dung, thông tin địa điểm. Trong đó, loại thông tin xã hội bao gồm các thông tin như: bạn bè, người theo dõi, “người bị theo dõi”…Loại thông tin nội dung bao gồm các thông tin như: tin tức, thẻ, nhạc…mà người đó quan tâm, yêu thích. Thông tin địa điểm gồm: địa điểm địa lý, POIs – Point(s) Of Interest (địa điểm tham quan). Từ 3

loại thông tin trên mà tư vấn xã hội đặt ra 3 nhiệm vụ (bài toán) chính: tư vấn bạn bè (Friend recommendation), tư vấn nội dung (Content recommendation), tư vấn địa điểm (Location recommendation). Với mỗi loại tư vấn sẽ có những nhiệm vụ, giải pháp và

cách tiếp cận khác nhau để giải quyết chúng.

Do hạn chế về thời gian và không gian, trong khóa luận tôi xin tập trung trình bày

cụ thể về bài toán tư vấn bạn bè.

1.2.3.1. Các giải pháp tư vấn áp dụng với tư vấn bạn bè

Hình 1. 5. Thông tin xã hội được biểu diễn bằng ma trận user - user S[6]

Thông tin xã hội thường được biểu diễn bằng một ma trận người dùng – người dùng S. Với các ô tại hàng i, cột j (i # j) có giá trị là 1 nếu người dùng i có quan hệ với người dùng j, và bằng 0 trong các trường hợp còn lại.

Tư vấn bạn bè về cơ bản chính là việc dự đoán các liên kết còn thiếu trong mạng xã hội. Người ta áp dụng hai phương pháp học máy giám sát và không giám sát để giải quyết vấn đề này.

1.2.3.2. Các phương pháp học máy giám sát

Các phương pháp giám sát xem xét việc dự đoán các liên kết như là một bài toán phân lớp. Người ta lấy nhãn chính là các liên kết. Sau đó, đối với công việc trích chọn

đặc trưng, người ta trích chọn một tập các đặc trưng từ các nguồn có sẵn để đại diện cho các cặp người dùng. Một cặp người dùng thông qua một vector đặc trưng (sử dụng phân lớp nhị phân: SVM) để gán nhãn cho chúng là 1 nếu cặp người dùng có cùng đặc trưng được xét đến, và bằng 0 trong trường hợp ngược lại.

17

Hình 1. 6. Dự đoán liên kết bằng cách sử dụng vector đặc trưng cho mỗi cặp người dùng[6]

1.2.3.3. Các phương pháp không giám sát

Các phương pháp không giám sát thường dựa trên đặc điểm của các mạng được lấy.

Có hai loại phương pháp được đề cập đến. Đó là các phương pháp dựa trên khả năng kết nối (Láng giềng chung, hệ số Jaccard, và Adamic/Adar) và các phương pháp dựa trên ma trận nhân tử.

Việc xuất hiện ngày càng nhiều và phổ biến của các trang mạng xã hội lớn trên các phương tiện xã hội đã cho thấy cơ chế hình thành động của mối quan hệ bạn bè. Có một

số loại tư vấn liên quan đến cơ chế hoạt động của mạng xã hội được đề cập như: tư vấn tương hỗ, tư vấn đóng bộ ba và tư vấn liên cộng đồng. Các cơ chế này đã được trình bày

chi tiết trong [6].

Tóm tắt chương 1

Trong chương này, khóa luận giới thiệu khái quát về hệ tư vấn truyền thống cũng như hệ tư vấn xã hội. Khóa luận cũng trình bày một số phương pháp để giải quyết bài

toán tư vấn truyền thống và bài toán tư vấn xã hội.

18

Chương này cũng đã nêu lên cái nhìn tổng quan về xu hướng phát triển của một số phương tiện xã hội phổ biến hiện nay như Twitter, Facebook…Từ đó chúng ta có thể thấy được tiềm năng khai thác để sử dụng vào hệ tư vấn trên phương tiện xã hội.

19

Chương 2. Khai thác quan hệ xã hội trong tư vấn xã hội

2.1. Ứng dụng lý thuyết xã hội trong khai phá phương tiện xã hội

Khai phá dữ liệu trong phương tiện xã hội là một ngành đang phát triển dưới sự bảo trợ của khai phá dữ liệu và phát triển nhanh chóng trong những năm gần đây[13]. Việc

xác minh một số lý thuyết xã hội trong dữ liệu phương tiện xã hội gợi ý rằng chúng ta nên đặt “xã hội” vào khai phá phương tiện xã hội để thúc đẩy nhiệm vụ khai phá dữ liệu trên phương tiện xã hội. Nhìn chung, có 3 loại đối tượng trong dữ liệu phương tiện xã hội: người dùng, quan hệ xã hội và nội dung do người dùng tạo ra. Căn cứ vào các loại

dữ liệu này mà người ta đã phân loại nhiệm vụ khai phá phương tiện xã hội thành 3 nhóm: dựa trên người dùng, dựa trên mối quan hệ và dựa trên nội dung.

2.1.1. Lý thuyết xã hội trong vai trò liên quan đến người dùng

Với mỗi cá nhân, hiểu biết tốt hơn về các kết nối của họ trên phương tiện xã hội có thể giúp họ chia sẻ và thu thập thông tin đáng tin cậy càng hiệu quả. Với các nhà cung cấp dịch vụ phương tiện xã hội, một sự hiểu biết tốt hơn về khách hàng có thể giúp họ đưa ra các dịch vụ tốt hơn. Sau đây là một số ứng dụng lý thuyết xã hội liên quan đến

người dùng.

2.1.1.1. Phát hiện cộng đồng

Cộng đồng trên phương tiện xã hội có thể tường minh như Yahoo!. Tuy nhiên, trong nhiều trang mạng phương tiện xã hội, cộng đồng các thành viên là ẩn. Phát hiện

cộng động được đề xuất để tìm kiếm các cộng động tiềm ẩn trên các phương tiện xã hội bằng cách định nghĩa các nhóm người dùng mà có kết nối với nhau nhiều hơn trong mạng. Điểm khác biệt chính giữa phân cụm trong khai phá dữ liệu và phát hiện cộng đồng là trong phát hiện cộng đồng, các cá nhân kết nối với nhau trên các phương tiện xã hội; trong khi phân cụm, những điểm dữ liệu không được nhúng vào mạng và chúng giả sử là

độc lập và phân phối đồng đều. Thông thường, với một mạng xã hội G(U,S), phát hiện cộng đồng nhằm mục đích tìm ra cộng đồng C trong đó những người dùng kết nối với nhau nhiều hơn.

Theo [13], Homophily chỉ ra rằng những người dùng tương tự thì khả năng kết nối xã hội cao và ảnh hưởng xã hội chỉ ra rằng người dùng có kết nối xã hội thì có nhiều khả

năng chia sẻ các sở thích tương tự nhau. Những tư vấn từ lý thuyết tương quan trong việc tạo ra mối quan hệ mới dựa trên độ tương tự dẫn đến sự kết hợp của các mô hình,

cũng được gọi là các cộng đồng. Hai người dùng sử dụng cùng một mạng xã hội thì có độ tương tự cao hơn. Phương pháp cực đại module hóa cho các con số thực tế quan hệ xã hội

giữa hai người dùng trừ đi số lượng dự đoán của các mối quan hệ xã hội giữa họ kể từ khi

20

hai người nằm trong cộng đồng giống nhau nên có khả năng cao thiết lập quan hệ hơn là hai người được chọn ngẫu nhiên. Theo [13], Wang và cộng sự đã chứng minh rằng những người trong cùng một cộng đồng có khả năng chia sẻ các thẻ tương tự trong các hệ thống gắn thẻ xã hội và họ tận dụng lợi thế của mạng lưới song phương giữa người sử dụng và

các thẻ trong các hệ thống gắn thẻ xã hội để khám phá ra các cộng đồng chồng chéo.

2.1.1.2. Phân lớp người dùng

Do vấn đề quyền riêng tư, người dùng trên các phương tiện xã hội có xu hướng che giấu thông tin cá nhân của họ. Đối với các nhà cung cấp dịch vụ truyền thông phương tiện xã hội, thông tin hồ sơ của người dùng rất hữu ích cho họ trong việc tùy chỉnh dịch vụ của họ sao cho người dùng sử dụng tốt nhất các dịch vụ, và đề xuất nội dung cũng như dịch vụ tìm kiếm cho người dùng khác trong cùng một mạng. Họ càng biết nhiều về

người dùng và sở thích của người dùng thì họ có thể phục vụ tốt hơn. Cho một mạng xã hội và một số thông tin của người dùng(thuộc tính, sở thích hoặc hành vi), phân lớp

người dùng được định nghĩa để suy ra các thông tin của người dùng khác trong cùng một mạng xã hội. Trong vấn đề phân lớp người dùng, một số người dùng trong U được gán nhãn như sau U = [UL, UU] trong đó UL và UU tương ứng là các tập người dùng được gán

nhãn và chưa được gán nhãn. Nhiệm vụ của việc phân lớp người dùng là để gán nhãn người dùng từ một tập hữu hạn các giá trị được phân loại trong UU với mạng xã hội G(U,

S) và UL [13].

Theo Jiliang Tang và cộng sự [13], lý thuyết tương quan xã hội chỉ ra rằng các nhãn của người sử dụng liên kết nên liên quan với nhau, đó là lý do chính tại sao các nhà nghiên cứu tin rằng nhãn có thể được dự đoán với cấu trúc mạng và người dùng được

gán nhãn một phần. Lý thuyết tương quan xã hội là giả thiết cơ bản của hầu hết các phương pháp phân loại người dùng hiện có, mà thuật toán thiết kế cho phân lớp. Một thuật toán phân lớp người dùng gồm có 3 thành phần điển hình:

o Một phân lớp cục bộ - nó được sử dụng để gán nhãn ban đầu o Một phân lớp quan hệ - nó học cách phân lớp từ tập các nhãn của các hàng xóm để

gán nhãn cho một người dùng được khuyến nghị bởi lý thuyết tương quan xã hội o Tập hợp phân loại – nó được áp dụng phân lớp quan điểm để mỗi nút lặp đi lặp lại

cho đến khi không thống nhất giữa nhãn lân cận là nhỏ nhất.

2.1.1.2. Phát hiện spammer trong xã hội

Phương tiện xã hội đã trở nên quan trọng và hiệu quả để phổ biến thông tin. Với sự nổi tiếng và có mặt khắp nơi của nó, những kẻ gửi thư rác xã hội tạo ra nhiều tài khoản giả mạo và gửi nội dung thương mại không được yêu cầu. Kẻ gửi thư rác xã hội ngày nay

càng nhiều và khối lượng thư rác đã tăng lên đáng kể. Ví dụ, 83% người dùng mạng xã hội đã nhận được ít nhất một yêu cầu kết bạn hoặc tin nhắn không mong muốn. Điều này không chỉ lạm dụng băng thông truyền thông, không gian lưu trữ và khả năng tính toán

21

mà còn lãng phí thời gian của người dùng và vi phạm quyền riêng tư của họ. Do đó phát triển kỹ thuật phát hiện spammer xã hội có hiệu quả là rất quan trọng trong việc cải tiến kinh nghiệm người dùng và ảnh hưởng tích cực đến giá trị tổng thể của các dịch vụ mạng xã hội. Cho một mạng xã hội G(U, S), phát hiện spammer xã hội là tìm tập các spammer

US từ U với U ∪ US.

Dựa vào lý thuyết tương quan xã hội, có hai quan sát cho người dùng bình thường và spammer. Đầu tiên với người dùng bình thường họ thực hiện các thao tác tương tự như bạn bè của họ. Thứ hai, những spammer thực hiện các thao tác khác nhau từ bạn bè của họ vì hầu hết bạn bè của họ là những người dùng bình thường. Vì vậy một quy tắc xã hội được đề xuất trong các khung ma trận nhân tử để mô hình những cái quan sát được, nơi mà hai kết nối người dùng bình thường nên tương quan chặt trong không gian tiềm ẩn kể từ khi họ chia sẻ những sở thích tương tự nhau và có thể thực hiện các hoạt động xã hội

tương tự nhau, trong khi các spammer nên tương quan lỏng với bạn bè trong không gian tiềm ẩn. Trong Twitter, khi một người follow một người khác, thì người được theo dõi

không có chức năng đồng ý cho người kia theo dõi hay không. Do đó mà spammer có thể dễ dàng theo dõi một số lượng lớn người dùng bình thường trong một thời gian ngắn. Nó chỉ là quan hệ một chiều. Vì thế mà các spammer dễ dàng thực hiện hành vi của mình

hơn các mạng xã hội khác. Trong [13], Jiliang Tang và cộng sự chia mối quan hệ theo dõi người dùng – người dùng trên Twitter vào 4 loại: [spammer, spammer], [normal, normal], [normal, spammer], [spammer, normal]. Trong 4 loại trên thì loại thứ 4 có thể được cố ý làm giả bởi các spammer, ở đây chỉ xem xét 3 loại đầu tiên. Cụ thể, chúng tôi giới thiệu

một đồ thị chuẩn để mô hình hóa lý thuyết tương quan xã hội trong các quan hệ xã hội, được tích hợp vào chuẩn Lasso để tạo một phân loại tuyến tính để phát hiện các spammer xã hội. Spammer và người dùng thông thường có nhiều hành vi xã hội khác biệt nhau.

Người dùng thông thường thích tạo một nhóm với người dùng thông thường khác, trong khi các spammer thì thích hoạt động trong các nhóm spam. Các tác giả đã kết hợp các

đặc trưng dựa vào cộng đồng của người dùng với đặc trưng topo cơ bản để cải thiện phân lớp spammer. Đầu tiên nó tìm thấy cấu trúc cộng đồng chồng chéo của người dùng và sau

đó trích xuất các đặc trưng dựa trên những cộng đồng như các đặc trưng thể hiện rõ vai trò của một người dùng trong cấu trúc cộng đồng như một nút ranh giới hoặc một nút lõi và số lượng của các cộng đồng nó thuộc về.

2.1.2. Lý thuyết xã hội trong vai trò liên quan đến các mối quan hệ

Một mạng xã hội thường được đại diện bởi một ma trận kề nhị phân. Đầu tiên ma

trận là rất thưa thớt vì có nhiều cặp người dùng có mối quan hệ bị ẩn đi. Thứ hai, mạng xã hội là rất phức tạp. Ví dụ, độ mạnh của các mối quan hệ có thể không đồng nhất như quan hệ người quen và bạn tốt, trong khi một mạng xã hội có thể có một hỗn hợp nhiều loại hình quan hệ như quan hệ gia đình, bạn bè và đồng nghiệp. Nhiệm vụ liên quan đến

22

các mối quan hệ tập trung vào quan hệ giữa các người dùng và mục đích chính là để thấy một góc nhìn và có được cái nhìn toàn diện của mạng xã hội.

2.1.2.1. Dự đoán liên kết

Dự đoán liên kết rất quan trọng trong các trang mạng xã hội để cung cấp dịch vụ

nhằm khuyến khích thêm nhiều tương tác người dùng với kinh nghiệm tốt hơn như mở rộng mạng lưới xã hội của mỗi người. Một trong những cách hiệu quả là tự động đề xuất các kết nối vì nó là khó khăn với người dùng để tìm ra những người có sẵn trên các trang mạng xã hội. Hầu hết các trang mạng xã hội đều cung cấp dịch vụ tư vấn bạn bè cho người dùng của họ như Facebook, Twitter và LinkedIn. Vấn đề thiết yếu của tư vấn bạn bè là dự đoán kết nối. Khi không có một quan hệ nào giữa người dùng ui và uj, Sij = 0. Nhiệm vụ của dự đoán liên kết là dự đoán giữa cặp người dùng ui và uj không có quan hệ

Sij = 0 có khả năng kết nối trong một mạng xã hội G(U, S).

2.1.2.2. Dự đoán các kết nối xã hội

Mạng xã hội trong các phương tiện xã hội có thể bao gồm nhiều loại quan hệ khác nhau. Ví dụ, trên Facebook thường có các loại mối quan hệ như gia đình, đồng nghiệp,

bạn cùng lớp và bạn bè. Tuy nhiên, hầu hết các mạng trực tuyến như Facebook, Twitter và LinkedIn, nhiều loại thông tin thường không có sẵn. Sự khác nhau của các mối quan hệ có thể ảnh hưởng đến người dùng theo những cách khác nhau. Ví dụ như công việc của một người dùng có thể ảnh hưởng đến chính đồng nghiệp của cô/anh ta; trong khi các thói quen trong cuộc sống hàng ngày có thể ảnh hưởng đến chính gia đình của cô/anh ta.

Điều này thực sự cần thiết và quan trọng trong việc xác định rõ các loại khác nhau của các mối quan hệ xã hội do đó chúng tôi đặt ra câu hỏi liệu chúng ta có thể tự động suy ra

các loại quan hệ xã hội cho các mạng xã hội trên các phương tiện xã hội hay không. Một nhiệm vụ mới dự đoán kết nối xã hội được thiết kế để trả lời câu hỏi trên, nhằm mục đích dự đoán các thể loại của mối quan hệ xã hội. Một giá trị khác không của Sij cho biết có một kết nối giữa ui và uj. Thông thường dự đoán kết nối xã hội là để dự đoán loại quan hệ

xã hội giữa ui và uj với Sij ≠ 0 từ một tập hữu hạn các phân loại như {gia đình, bạn cùng lớp, đồng nghiệp và bạn bè}.

2.1.2.3. Dự đoán độ mạnh của kết nối

Người dùng mạng xã hội có thể có hàng trăm mối quan hệ xã hội. Tuy nhiên, một

nghiên cứu gần đây chỉ ra rằng người dùng Twitter có một số lượng rất nhỏ của bạn bè so với số lượng người theo dõi và followees mà họ tuyên bố [13]. Các chi phí thấp hình

thành liên kết trong phương tiện xã hội có thể dẫn đến các mạng với độ mạnh mối quan hệ không đồng nhất(ví dụ: người quen và bạn thân là pha trộn lẫn nhau). Cặp người dùng

với độ mạnh cao thường có khả năng chia sẻ tương tự lớn hơn những người có độ mạnh yếu; vì vậy một sự hiểu biết tốt hơn về độ mạnh của các mối quan hệ xã hội có thể giúp các trang mạng xã hội phục vụ khách hàng của họ tốt hơn cũng như các khuyến nghị và

23

công cụ quản lý bạn bè hiệu quả hơn. Từ đó làm phát sinh các vấn đề của dự đoán độ mạnh kết nối. Khi có một kết nối giữa người dùng ui và uj, Sij = 1. Nhiệm vụ của việc dự đoán độ mạnh là dự đoán độ mạnh kết nối có giá trị trong khoảng từ 0 đến 1 của ui và uj

với Sij = 1. Sau khi dự đoán độ mạnh, các mối quan hệ nhị phân được biểu diễn bằng ma

trận đại diện Sij ϵ {0, 1} sẽ chuyển đổi thành một giá trị ma trận đại diện mối quan hệ liên

tục Sij ϵ [0, 1]. Theo [12], I. Kahanda và cộng sự (2009) được dẫn bởi lý thuyết tương quan xã hội, 4 danh mục khác nhau của các đặc trưng, ví dụ, thuộc tính tương tự, kết nối topo, kết nối giao dịch và kết nối giao dịch mạng, được trích xuất từ các nguồn gồm liên

kết bạn bè, thông tin hồ sơ cá nhân, bài đăng trên tường cá nhân, hình ảnh được đăng và các nhóm là thành viên. Sau đó phân lớp được đào tạo để dự đoán độ mạnh của liên kết từ thông tin giao dịch dựa trên các đặc trưng được trích xuất. Lý thuyết tương quan

Homophily mặc định rằng người dùng có xu hướng hình thành các mối quan hệ với những người có một số đặc điểm tương tự, và có khả năng liên kết mạnh hơn, cao hơn độ tương tự. Độ mạnh của các liên kết xã hội ảnh hưởng trực tiếp đến bản chất và tần số tương tác trực tuyến giữa một cặp người dùng. Từ đó đề xuất khung mô hình độ mạnh mối quan hệ là nguyên nhân tiềm ẩn ảnh hưởng lẫn nhau giữa những người dùng.

2.1.3. Lý thuyết xã hội trong nhiệm vụ liên quan về nội dung

Nhiều kỹ thuật đã được phát triển cho nhiệm vụ khai thác nội dung khác nhau như phân lớp và phân cụm trong nhiều thập kỷ qua. Nội dung người dùng tạo ra trên phương tiện xã hội thường là các liên kết, nhiễu, không có cấu trúc và không đầy đủ, vì thế mà

người ta xác định rằng các kỹ thuật hiện có sẽ gặp khó khăn khi áp dụng những nhiệm vụ khai thác nội dung người dùng tạo ra trên phương tiện xã hội. Trước sự phổ biến của phương tiện xã hội, các nhà nghiên cứu đã nhận thấy rằng khai phá thông tin liên kết có thể cải thiện phân lớp và phân cụm nội dung. Các phương tiện xã hội phổ biến tạo ra các

mối quan hệ xã hội có sẵn, trong đó khuyến khích việc khai thác các mối quan hệ xã hội nhiều hơn nữa trong nhiệm vụ khai phá dữ liệu. Lý thuyết xã hội có thể giúp chúng ta hiểu các mối quan hệ xã hội tốt hơn.

Trong lớp ứng dụng này, người ta chia làm ba khía cạnh áp dụng khác nhau:

o Tư vấn xã hội o Lựa chọn đặc trưng o Phân tích ý định người dùng

Trong số ba khía cạnh trên, tư vấn xã hội đã được tôi đề cập ở Chương 1 nên sau đây, tôi xin trình bày ngắn gọn hai khía cạnh còn lại trong việc áp dụng lý thuyết xã hội

liên quan về nội dung.

2.1.3.1. Lựa chọn đặc trưng

Một đặc điểm của nội dung người dùng được tạo ra trong phương tiện xã hội là một ma trận nhiều chiều như có hàng chục nghìn các thuật ngữ trong tweets hoặc pixel

24

cho một bức ảnh trên Flick. Khai phá dữ liệu truyền thống như phân lớp, phân cụm có thể thất bại do số chiều quá lớn. Lựa chọn đặc trưng đã được chứng minh là một cách hiệu quả để xử lý dữ liệu nhiều chiều cho khai phá dữ liệu hiệu quả. Như đã đề cập ở trên, nội dung người dùng tạo ra có liên quan do dự sẵn có của các mối quan hệ xã hội và đặt ra

những thách thức cho các thuật toán lựa chọn đặc trưng truyền thống thường được thiết kế cho dữ liệu IID. Các định nghĩa chính thức của lựa chọn đặc trưng được Jiliang Tang và cộng sự đề cập vào năm 2012 – mục đích chính của chúng tôi là phát triển một lựa

chọn mà một tập hợp các đặc trưng là phù hợp nhất từ F trên ma trận đặc trưng về nội dung C với nội dung xã hội S và R [13].

Ví dụ trên mạng xã hội LinkedIn tồn tại 4 kiểu mối quan hệ: co-post, coFollowing, coFollowed và Following. Tập các kiểu mối quan hệ này được trích xuất từ ngữ cảnh xã

hội S và R của người dùng tạo ra nội dung C. Lý thuyết xã hội chỉ ra rằng kết nối của người dùng thường chia sẻ các chủ đề tương tự nhau. Theo đó, 4 kiểu mối quan hệ trên có thể ảnh hưởng đến lựa chọn đặc trưng với dữ liệu liên quan. Giả sử người dung ui

follow đến một người dùng uj khác bởi vì ui đã chia sẻ sở thích của uj, và nội dung tạo ra của họ có độ tương tự cao về chủ đề. Đó cũng được coi là một đặc trưng trong mối quan

hệ Follow của ui và uj.

2.1.3.2. Phân tích ý định người dùng

Người dùng trực tuyến thường chia sẻ và thể hiện quan điểm cá nhân trên các trang mạng xã hội, do đó cung cấp một lượng tài nguyên phong phú giúp cho chúng ta hiểu được quan điểm cộng đồng từ những quan điểm cá nhân đó. Trong một nghiên cứu của các nhà khoa học trên mạng xã hội Twitter, họ đã khai thác các quan điểm thể hiện

tình cảm(yêu, thích, ghét…) và nội dung nhanh hơn so với những dự báo về doanh thu của phòng bán vé cho các bộ phim; các từ khóa thể hiện tâm trạng thu thập được từ tập dữ liệu lớn của Tweets có độ chính xác 86,7% so với dự báo những thay đổi lên xuống

hàng ngày trong các giá trị trước giờ đóng cửa của DJIA (Ở Mỹ, ngành công nghiệp giải trí đều có các công ty có niêm yết cổ phiếu trên thị trường chứng khoán. Do đó mà doanh thu mang lại từ các bộ phim góp phần đẩy mạnh giá trị cố phiếu của chính công ty đó. DJIA là chỉ số thị trường chứng khoán tại Mỹ). Do đó mà phân tích tình cảm trên phương

tiện xã hội đặt ra nhiều cơ hội cho khai phá dữ liệu. Phân tích tình cảm cho nội dung người dùng tạo ra với các quan hệ xã hội là để có được một dự báo từ các ma trận đặc trưng nội dung C với ngữ cảnh xã hội S và R, có thể tự động gán nhãn tình cảm cho một

bài đăng chưa được công bố.

2.2. Nhân tử ma trận xác suất trong tư vấn xã hội

Như đã đề cập ở Chương 1, hệ tư vấn xã hội truyền thống với phương pháp lọc

cộng tác sẽ có những mặt hạn chế riêng. Để khắc phục được các nhược điểm này, người ta đã đề xuất sử dụng nhân tử ma trận. Nếu như phương pháp dựa vào người dùng hay

25

dựa vào nội dung trong lọc cộng tác là những phương pháp tiếp cận đơn giản và trực quan, thì nhân tử ma trận là kỹ thuật luôn mang lại hiệu quả bởi vì nó cho phép chúng ta khai thác các đặc trưng tiềm ẩn dưới tương tác của người dùng với sản phẩm. Sự tương tác này cũng cho biết tồn tại một mối quan hệ xã hội tiểm ẩn giữa chính người dùng và

mục. Tất nhiên cũng phải nói thêm rằng, nhân tử ma trận chỉ đơn giản là một công cụ toán học để cho chúng ta thao tác xung quanh các ma trận, và do đó nó được áp dụng trong nhiều kịch bản mà người ta muốn tìm ra một cái gì đó ẩn dưới dữ liệu.

Để hiểu rõ hơn về tác động của các mối quan hệ tiềm ẩn với hệ tư vấn, phần tiếp theo tôi xin trình bày một số ý để cụ thể hóa vấn đề nêu trên.

2.2.1. Ý tưởng chính của phương pháp nhân tử ma trận

Giống như tên gọi của phương pháp, nhân tử ma trận rõ ràng dựa vào ma trận, tức là tìm ra 2 hoặc nhiều hơn các ma trận mà khi ta nhân chúng lại thì sẽ được ma trận ban đầu.

Như đã đề cập ở trên, từ một điểm áp dụng xem, nhân tử ma trận có thể được sử dụng để khai thác đặc trưng tiềm ẩn dưới sự tương tác giữa các loại thực thể với nhau. Và một ứng dụng rõ ràng là để dự đoán xếp hạng trong lọc cộng tác. Dưới đây là một ví dụ về ma trận người dùng – mục, với mục là các bộ phim được ký hiệu là V1, V2, V3, V4; điểm số đánh giả là một số nguyên từ 1 đến 5. Với 5 là mức đánh giá cao nhất, giảm dần

đến 1 là xấu nhất.

V1 V2 V3 V4

U1 5 3 - 1

U2 4 - - 1

U3 1 1 - 5

U4 1 - - 4

U5 - 1 3 4

Bảng 2. Ví dụ về ma trận user-item

Trong đó những ô có dấu gạch ngang(-) biểu thị người dùng tương ứng chưa đánh giá bộ phim đó. Nhiệm vụ cần làm là dự đoán những đánh giá chưa có ở trên, dựa vào các đánh giá đã có trong ma trận. Chúng ta sử dụng nhân tử ma trận để biết làm thế nào

người dùng đánh giá một mục. Ví dụ, hai người dùng cùng đánh giá hạng cao cho một bộ phim nếu họ cùng thích một diễn viên trong phim; hoặc nếu bộ phim đó là một bộ phim

hành động, và đây cũng chính là thể loại phim mà cả hai người dùng đó đều thích. Do đó, nếu chúng ta khai thác được đặc trưng tiềm ẩn, chúng ta có thể dự đoán hạng của người dùng với bộ phim nào đó, bởi vì đặc trưng sử dụng phải liên quan đến sự phù hợp giữa các đặc trưng của người dùng với mục.

26

Trên phương diện toán học, ý tưởng này chính là việc lấy được một đại diện l

nhiều chiều của tập người dùng U dựa trên phân tích đồ thị mạng xã hội G. Với U ∈ Rl ×m,

và Z ∈ Rl × m biểu thị người dùng tiềm ẩn và ma trận đặc trưng; với vector cột Ui và Zk tương ứng là vector người dùng cụ thể, vector tiềm ẩn cụ thể. Từ đó xác định phân phối

xác suất có điều kiện hơn các mối quan hệ xã hội mạng lưới quan sát bởi công thức sau:

p(C|U,Z,σ2C) =

2

1 1

[(c |g(U Z ), )]Cik

m mIT

ik i k Ci k

N (2.1)

trong đó N(x|μ, σ2) là hàm mật độ xác suất của phân phối Gaussian với trung bình μ và

các σ2, và ICik là chỉ số chức năng bằng 1 nếu người dùng I tin tưởng hoặc biết người dùng k và bằng 0 trong các trường hợp còn lại. Hàm g(x) là logic g(x) = 1/(1 + exp(-x)),

cái mà ràng UTi Zk buộc có giá trị trong đoạn [0,1].

Áp dụng các phương pháp ghi nhật ký sự kiện sau hơn hai đặc trưng tiềm ẩn với siêu tham số(ví dụ: quan sát phương sai nhiễu và phương sai tiên nghiệm) giữ cố định là

tương đương với việc giảm thiểu tổng các bình phương sai số thực hiện chức năng sau đây với chuẩn bậc 2:

2ij ij

1 1 (i)

1(R,S, U,V) (R g( U V (1 ) ))

2

m nR T T

i j ik k ji j k

I S U V

(2.2)

2.2.2. Nội dung của phương pháp

Phương pháp ma trận nhân tử giả sử rằng có một nhóm mẫu tiềm ẩn ảnh hưởng

đến hành vi đánh giá của người dùng và thi hành một ma trận nhân tử thấp vào ma trận

đánh giá người dùng – mục. Cho ui ∈ RK và vj ∈ RK là các vector thứ bậc người dùng ui

và vector đặc trưng mục vj tương ứng, trong đó K là số yếu tố tiềm ẩn.

R n m là ma trận đánh giá người dùng – mục, với n là số lượng người dùng, m là số lượng mục. RIJ là số điểm đánh giá của ui đối với vj, nếu sự đánh giá này là chưa rõ ràng

RIJ có giá trị bằng 0. Hệ tư vấn dựa trên ma trận nhân tử giải bài toán sau:

(2.3)

Trong đó 1 2U u ,u ,..., u K nn

và 1 2V v , v ,..., v K mm

, số hạng 2 2|| U || || V ||F F được

đưa ra để tránh hiện tượng quá khớp(phù hợp) và tham số không âm được dùng để

điều khiển khả năng của U và V. Với O = {<ui, vj> | RIJ ≠ 0} là tập xếp hạng đã biết và

T = {<ui, vj> | RIJ = 0} là tập các xếp hạng chưa biết. Trong đó T n n biểu thị quan hệ

2 2 2ij

(u ,v )

min (R u v ) (|| U || || V || )i j

Ti j F F

27

xã hội người dùng – người dùng trong đó Tij = 1 nếu uj có liên quan đến ui và bằng 0 nếu ngược lại.

Ưu điểm của phương pháp ma trận nhân tử là: (1) phương pháp tối ưu hóa đơn giản như phương pháp dựa trên độ dốc Gradient có thể được sử dụng để tìm một giải

pháp tối ưu hơn; (2) biểu diễn xác suất tốt với nhiễu Gaussian[Salakhutdinov và Mnih, 2008]; và (3) có tính linh hoạt và cho phép tích hợp thông tin phụ như ngữ cảnh xã hội cục bộ và toàn cục.

Thực hiện bài toán trên nghĩa là chúng ta muốn khai thác K đặc trưng tiềm ẩn. Nhiệm vụ của chúng ta là tìm ra 2 ma trận P và Q để có thể xấp xỉ R:

R ≈ P x QT = R

Trong đó P n K , Q m K . Mỗi hàng của ma trận P biểu thị độ mạnh giữa người dùng và các đặc trưng. Tương tự, mỗi hàng của ma trận Q biểu thị độ mạnh giữa mục và tập

đặc trưng. Để dự đoán hạng của một mục vj đánh giá bởi người dùng ui ta có thể tính toán như sau:

r ij = pTi qj =

1

k

ik jkk

p q

Để có được ma trận P và Q, đầu tiên chúng ta phải khởi tạo hai ma trận này với

các giá trị đã biết, tính toán sự khác nhau giữa các mục của 2 ma trận này cho ra ma trận M, và sau đó cố gắng giảm thiểu sự khác biệt này. Phương pháp này gọi là dốc Gradient

nồng độ, mục đích chính là tìm giá trị nhỏ nhất của sự khác biệt.

Để đánh giá phương pháp này, hệ số lỗi giữa giá trị đánh giá ước lượng và đánh giá thực tế được đưa ra:

2 2ij ij ij(r )e r

Ở đây chúng ta quan sát bình phương tối thiểu bởi vì giá trị đánh giá ước lượng thường có thể cao hơn hoặc thấp hơn giá trị đánh giá thực tế.

2.2.3. Học tư vấn với các yếu tố mối quan hệ xã hội tiềm ẩn, tường minh

2.2.3.1. Mối quan hệ xã hội tường minh

Chúng ta đã biết rằng, trong hệ tư vấn truyền thống cũng đã sử dụng ma trận người dùng – mục để thực hiện tư vấn cho người dùng. Tuy nhiên, trong cách tiếp cận truyền

thống, người ta đã loại bỏ các kết nối giữa các người dùng với nhau. Theo các quan sát thực tế, thì điều này đã làm ảnh hưởng không nhỏ tới tính chính xác về kết quả cuối cùng

của tư vấn. Thông thường, chúng ta thường đưa ra các lựa chọn dựa trên ý kiến tư vấn từ bạn bè, người thân hay đồng nghiệp – những người mà có sở thích tương tự hoặc ít nhiều

28

ảnh hưởng tới sở thích của chính bản thân chúng ta. Mối quan hệ này được trực quan hóa thông qua đồ thị kết nối xã hội. Sau đây là một ví dụ về kết nối xã hội và ma trận người dùng – mục với một cửa hàng bán đồ chơi mà Ma Hao và cộng sự đã nghiên cứu:

Hình 2. 1. Đồ thị kết nối xã hội [11]

Hình 2. 2. Ma trận user-item tương ứng[11]

Đồ thị kết nối xã hội cho biết các kết nối giữa tập gồm 6 người dùng với nhau. Trong đó các cạnh là các liên kết giữa các cặp người dùng. Các thông số trên cạnh của đồ thị cho biết mức độ tin tưởng, độ tương tự giữa các cặp người dùng với nhau; chiều mũi tên chỉ sự kết nối của từng cặp người dùng với nhau. Lấy ví dụ với người dùng u4, người dùng này có kết nối với 2 người dùng u1 và u5, trong đó thì có sự tương đồng về sở thích

với u1 nhiều hơn u5; và u4 hoàn toàn tin tưởng vào u2. Ma trận user-item cho biết mức độ đánh giá của mỗi người dùng với các mục tương ứng. Điểm số đánh giá là các số nguyên

từ 1 đến 5, tương ứng là 5 mức độ đánh giá: ghét, không thích, trung lập, thích và yêu. Quan sát ma trận trên, nhận thấy cả 2 người dùng u1, u2 và u5 đều đánh giá mục i1 với điểm số cao, do đó có thể dự đoán được rằng u4 cũng sẽ đánh giá i1 cao. Xét tương tự với các mục và cặp người dùng còn lại. Áp dụng phương pháp nhân tử ma trận xác suất, ta có được ma trận kết quả dự đoán đánh giá như sau:

Hình 2. 3. Ma trận dự đoán đánh giá user-item[11]

Như vậy, với sự kết hợp các kết nối đã có của người dùng trong mạng xã hội, ta có thể đưa ra được các dự đoán, dự báo gần với mức đánh giá thực tế của người dùng hơn.

29

2.2.3.2. Mối quan hệ xã hội tiềm ẩn

Trong phần trên chúng tôi đã trình bày một cải tiến trong hệ tư vấn khi mà cả ma

trận người dùng đánh giá mục và đồ thị xã hội của người dùng là có sẵn. Tuy nhiên, trong thực tế thì các kết nối này không phải lúc nào cũng rõ ràng. Vì một lý do nào đó, người dùng không công khai mối liên kết với các người dùng khác trong mạng xã hội. Hoặc cũng có trường hợp, các người dùng trên mạng xã hội tuy chưa thực sự kết nối với nhau,

nhưng lại có độ tương đồng cao về sở thích, cùng quan tâm đến một vấn đề nào đó. Từ đó chúng ta có thể dự đoán được ở một mức độ nào đó về tính chính xác của các kết nối mà chúng ta dự đoán. Các trường hợp kể trên được coi là các mẫu tiềm ẩn ảnh hưởng đến

hành vi đánh giá của người dùng.

Khi chúng ta có được thông tin đánh giá của tất cả các người dùng, chúng ta có thể

đánh giá độ tương đồng giữa hai người dùng bằng cách đo xếp hạng của hai người dùng. Có hai phương pháp phổ biến mà chúng ta có thể áp dụng, là độ tương đồng không gian

vector(VSS) và độ tương quan Pearson(PCC). VSS được định nghĩa là độ tương đồng giữa hai người dùng i và f dựa trên tập mục mà họ đã đánh giá. Chúng ta có công thức sau:

Sim(i,f) =

i j f j(i) I(f)

2 2ij

(i) I(f) (i) I(f)

. R

.

j I

fjj I j I

R

R R

(2.4)

Trong đó j thuộc tập con của tập mục mà người dùng i và người dùng f đã đánh giá. Rij là đánh giá của người dùng i cho mục j. Từ định nghĩa ở trên, chúng ta có thể thấy rằng độ tương tự VSS trong sim(i,f) có giá trị trong đoạn [0,1], và giá trị này càng lớn nghĩa là người dùng i và f càng tương tự nhau.

Trên thực tế, tính toán độ tương tự trong VSS không quan tâm đến việc những người dùng khác nhau có thể có phong cách đánh giá khác nhau. Ví dụ trong việc đánh

giá một bộ phim, có người đánh giá chỉ vì quan tâm đến diễn viên yêu thích của họ; có người lại quan tâm đến thể loại phim… Một số người dùng có thể có khả năng cung cấp

một đánh giá cao hơn cho tất cả các mục trong khi một người dùng khác lại có xu hướng đánh giá xếp hạng thấp hơn. Do đó mà PCC được đề xuất để giải quyết vấn đề này:

Sim(i,f) =

i j f j(i) I(f)

2 2ij

(i) I(f) (i) I(f)

( ) . (R )

( ) . ( )

i fj I

i fj fj I j I

R R R

R R R R

(2.5)

30

Trong đó iR đại diện tỷ lệ trung bình đánh giá của người dùng i. Từ định nghĩa này, độ

tương quan của người dùng sim(i,f) có giá trị trong đoạn từ [-1, 1], và giá trị này càng lớn thì người dùng i và f càng tương đồng với nhau. Để thống nhất với độ tương đồng VSS,

chúng tôi xây dựng một hàm (x) (x 1) / 2f để giới hạn giá trị của độ tương quan PCC

vào đoạn [0, 1].

Với các định nghĩa về độ tương tự ở trên, với mọi người dùng trong ma trận người

dùng – mục, chúng ta có thể tính toán được tốp k người dùng tương tự nhất trong mối quan hệ bạn bè tiềm ẩn. Vì vậy, chúng ta có thể sử dụng công thức (1) để học các đặc

trưng tiềm ẩn U và V. Trọng số Sik trong công thức trên được xác định như sau:

(i)

(i, k)

(i, f)ik

f T

SimS

Sim

(2.6)

2.3.Khai thác ngữ cảnh xã hội toàn cục, cục bộ cho tư vấn xã hội

2.3.1. Khai thác ngữ cảnh xã hội cục bộ

Quan hệ xã hội có thể được xem xét từ các góc độ khác nhau. Ngữ cảnh xã hội cục

bộ cho thấy mối tương quan giữa người dùng và các lân cận của họ(láng giềng, hàng xóm).

Theo [18], lý thuyết tương quan xã hội homophily và ảnh hưởng xã hội mở ra cách

thức khai thác bối cảnh xã hội cục bộ để tư vấn. Homophily chỉ ra rằng người dùng có sở thích tương tự có nhiều khả năng kết nối xã hội với nhau, và ảnh hưởng xã hội chỉ ra rằng người dùng có kết nối xã hội có nhiều khả năng chia sẻ nhau các sở thích tương tự. Tuy nhiên, hình thành các mối quan hệ với chi phí thấp có thể dẫn đến các mối quan hệ xã hội có độ mạnh không đồng nhất(ví dụ các mối quan hệ yếu và quan hệ mạnh pha trộn với nhau). Chi phí ở đây có thể là thời gian, công sức, tiền bạc…Hình vẽ dưới đây minh họa quan hệ xã hội của 2 nhóm người quan tâm và không quan tâm tới Barack Obama. Hai nhóm được phân định bởi đường gạch ngang. Nửa bên trái là nhóm người thích Obama, nửa còn lại là số người không thích Obama. Trong số đó cũng có những người quan tâm

đến Obama có kết nối với những người ở nhóm còn lại. Sự pha trộn này đôi khi dẫn đến các đánh giá không chính xác quan điểm của người này về vấn đề chung ở đây là Obama.

31

Hình 2. 4. Ví dụ người dùng kết nối xã hội với sở thích tương tự.

Do những người có quan hệ mạnh có khả năng chia sẻ sở thích tương tự cao hơn so với những người có quan hệ yếu, nên sự cân bằng mọi mối quan hệ xã hội có thể dẫn

đến việc làm giảm hiệu năng tư vấn. Vấn đề đặt ra là làm sao để xác định được độ mạnh của quan hệ xã hội hay độ mạnh của liên kết? Độ mạnh của liên kết có thể được xác định bằng cách tính số cầu nối giữa hai điểm đầu cuối cần xác định. Nếu số cầu nối càng lớn thì độ mạnh càng nhỏ và ngược lại. Ngoài ra còn có cách tính khác phổ biến hơn là sử dụng độ tương đồng Cosin. Với mỗi người dùng ui, ta sử dụng Ni = {uk | T(i,k) =1} để chỉ

các lân cận của ui. Gọi n nS là ma trận biểu diễn quan hệ niềm tin trong đó Sik biểu thị

sức mạnh quan hệ xã hội giữa ui và uk. Với k iu N , Sik được tính như độ tương đồng

Cosin giữa các vector đánh giá ui và uk, còn với k iu N thì Sik = 0:

ij

2 2ij

0

. kjiik

kji j

R RS

R R

k

k

i

i

u N

u N

(2.7)

Theo lý thuyết tương quan xã hội, sở thích người dùng của hai người dùng có kết nối xã

hội có tương quan với nhau, do đó Jiliang Tang và cộng sự đề xuất việc xác định hạn mức nắm bắt ngữ cảnh xã hội cục bộ như sau:

2

1

min (S u Hu )k t

nT

ik i ki u N

(2.8)

Trong đẳng thức trên, với hai người dùng i và j có kết nối xã hội, thì vector sở thích của

họ là ui và uj có tương quan qua H được điều khiển bởi trọng số xã hội Sik của chúng

trong đó H K K là ma trận nắm bắt mối tương quan sở thích người dùng. Sik càng lớn

thì ui và uk có kết nối mạnh, do đó mà vector đặc trưng tương quan chặt qua H.

32

Áp dụng ngữ cảnh xã hội cục bộ vào hệ tư vấn, Ma và cộng sự, 2008 [14] đã xác định ngữ cảnh xã hội cục bộ được định nghĩa bởi đẳng thức:

2

1

min (S u z )k t

nT

ik i ki u N

(2.9)

Trong đó, 1 2, ,..., z k nnZ z z là ma trận đặc trưng ẩn đặc tả nhân tử [11]. Giả định

của phương pháp này là người dùng ui nên chia sẻ cùng một vector sở thích người dùng ui trong không gian đánh giá và không gian xã hội. Đây chính là điểm khác biệt so với phương pháp mà Jiliang Tang và cộng sự đề xuất dựa trên lý thuyết tương quan xã hội[14]. Theo đó, quy tắc xã hội được xác định để nắm bắt ngữ cảnh xã hội cục bộ được xác định bởi:

22

1

min S || u )k t

n

ik i ki u N

u

(2.10)

trực giác của quy tắc xã hội là hai người dùng có mối quan hệ xã hội nên chia sẻ những sở thích giống nhau hoặc tương tự. Do đó quy tắc xã hội buộc các vector sở thích của hai

người kết nối với nhau gần gũi hơn, và được điều khiển bởi độ mạnh xã hội của chúng.

2.3.2. Khai thác bối cảnh xã hội toàn cục

Massa P và Avesani P, 2007 [9] với cách tiếp cận quan hệ xã hội toàn cục, danh tiếng của một người dùng trong toàn mạng xã hội sẽ được cho biết. Sử dụng danh tiếng sẽ cung cấp sức mạnh và khả năng bổ sung trong các hệ thống trực tuyến:

o Dự đoán niềm tin của người dùng. o Xác định các blogger ảnh hưởng.

o Xếp hạng nội dung trực tuyến. o Tìm kiếm đánh giá chất lượng cao.

Trong [17], giả sử rằng ri ∈ [1, n] là hạng danh tiếng của ui trong đó ri = 1 chỉ rằng ui có danh tiếng cao nhất trong toàn mạng xã hội nói chung. Sau đó, chúng tôi xác định hạng danh tiếng của người dùng wi như là một hàm f theo hạng danh tiếng của người dùng ri. Định nghĩa sau đây của f được hoạt động trong nghiên cứu này:

(2.11)

Trong đó hàm f giới hạn giá trị độ danh tiếng của wi trong [0, 1] và là một hàm giảm theo ri, tức là, người dùng hạng cao sẽ có điểm danh tiếng cao.

1w (r )

1 log(r )i i

i

f

33

Các nghiên cứu của Seno và Lukas vào năm 2007 đã chứng minh được rằng lời tư vấn từ người có danh tiếng cao ảnh hưởng tích cực đến việc chấp nhận của người dùng đối với một thương hiệu. Trong thế giới trực tuyến, Massa nhận thấy rằng hạng người dùng với danh tiếng cao có nhiều khả năng về niềm tin [9]. Từ đó, Tang và cộng sự [14]

đã đề xuất việc nắm bắt ngữ cảnh xã hội toàn cục là lấy trọng số về độ quan trọng xếp hạng người dùng theo điểm danh tiếng của họ:

(2.12)

trong đó độ quan trọng xếp hạng người dùng ui được điều khiển bởi danh tiếng wi của chính người dùng đó trong quá trình nhân tử hóa ma trận. wi càng lớn thì danh tiếng của

ui càng cao, dẫn đến Ti ju v phù hợp chặt với đánh giá RIJ và ngược lại. Đẳng thức (2.12)

có thể được viết lại dưới dạng ma trận như sau:

2min || W (R U V) ||TF (2.13)

Trong đó W n mR được xây dựng bởi:

if

if

ij

ij

0

0

R

R

(2.14)

2.3.3. Một số phương pháp trích chọn đặc trưng cục bộ, toàn cục

Mối quan hệ xã hội cục bộ, toàn cục được hình thành từ những thực thể trong mạng. Các kết nối được hình thành từ ít nhất là 2 thực thể với nhau. Do đó tính chất của quan hệ xã hội được quyết định từ chính các cặp thực thể này. Từ đó ta có thể rút ra được rằng để trích chọn được đặc trưng toàn cục, cục bộ, ta quy về trích chọn đặc trưng của

các cặp mẫu này. Vai trò của các cặp mẫu này trong mạng là để bảo tồn cấu trúc hình học cục bộ và cặp mẫu tương tự toàn cục.

2.3.3.1.Các khái niệm liên quan

Theo [16], ta có các khái niệm liên quan sau:

a) Trích chọn đặc trưng(feature selection): mục đích là chọn ra một tập hợp con các đặc trưng của dữ liệu nhiều chiều theo một tiêu chí xác định trước. Việc này sẽ hữu ích khi ta lược giảm số chiều của ma trận đặc trưng, từ đó đơn giản hóa bài toán. Nó có thể mang lại nhiều lợi ích như loại bỏ các đặc trưng không thích hợp và không

,

2

( )

min w (R )i j

Ti ij i j

u v O

u v

ij

ww

0i

34

cần thiết, làm giảm nguy cơ phù hợp quá mức, tiết kiệm chi phí tính toán, cải thiện dự báo đặc trưng chính xác và nâng cao kết quả toàn diện.

b) Cặp mẫu tương tự: đề cập đến sự giống nhau hay sự tương đồng giữa hai mẫu trong một tập dữ liệu huấn luyện. Nó có thể được tính toán bằng cách sử dụng một

biện pháp tương tự được xác định trước ví dụ như phương pháp Gaussian.

c) Cấu trúc hình học cục bộ: đề cập đến các mối quan hệ khu vực cục bộ của một bộ dữ liệu, được đặc trưng thông qua k-láng giềng gần nhất của mỗi mẫu. Để xem xét

cấu trúc này, ta xây dựng một đồ thị trong đó mỗi mẫu được coi là một nút, mỗi cạnh đưuọc đặt giữa hai mẫu nếu chúng là hàng xóm với nhau.

Vai trò của việc xét đến bảo tồn cấu trúc hình học địa cục bộ cũng như cặp mẫu tương tự toàn cục đã được công nhận trong các tài liệu gần đây[16]:

o Duy trì thông tin nội tại của dữ liệu nhiều chiều sau khi chúng được chuyển đến một không gian thấp chiều để phân tích.

o Một đặc trưng duy nhất: hoặc là toàn cục hoặc là cục bộ, có thể không đủ

để đại diện cho các cấu trúc cơ bản của dữ liệu thực tế. o Cấu trúc hình học cục bộ của dữ liệu có thể được xem xét như một quy tắc

dữ liệu phụ thuộc của ma trận biến đổi, giúp tránh overfitting, đặc biệt là khi các mẫu học khan hiếm

d) Chuẩn l2,1: là sự kết hợp của cả chuẩn l1 và l2 để tính toán khoảng cách áp dụng trong việc xác định độ tương đồng của thực thể hay dữ liệu. Chuẩn l1 còn được gọi là khoảng cách Manhattan:

1 1 2 2(i, j) | x x | | x x | ... | x x |

p pi j i j i jd (2.15)

Chuẩn l2 còn được gọi là khoảng cách Euclidean:

1 1 2 2

2 2 2(i, j) | x x | | x x | ... | x x |p pi j i j i jd (2.16)

2.3.3.2. Một số phương pháp bảo tồn cấu trúc hình học cục bộ và cặp mẫu tương tự toàn cục.

Hiện nay, đã có rất nhiều phương pháp nhằm bảo tồn cấu trúc hình học cục bộ và cặp mẫu tương tự tự toàn cục. Trong đó, có một số phương pháp điển hình như: lựa chọn các đặc trưng tương tự để bảo tồn (SPFS), lựa chọn đặc trưng dựa trên học cục bộ(LLFS),

thông qua cực tiểu chuẩn l2,1(L21RFS)…Tuy nhiên, các phương pháp này mới chỉ dừng lại ở mức xét một trong hai đặc trưng toàn cục hoặc cục bộ. Sau đây, khóa luận xin giới

thiệu phương pháp GLSPFS, là phương pháp kết hợp từ một số phương pháp được đề xuất bởi Xinwang Liu và cộng sự, 2014. GLSPFS là sự kết hợp của các thuật toán nhúng tuyến tính cục bộ(LLE), bảo tồn chiếu tuyến tính(LPP), và sự liên kết không gian tiếp

35

tuyến cục bộ(LTSA). Trong phương pháp này cũng có sự kết hợp tuyến tính của k láng giềng gần nhất, cũng như yêu cầu các trọng số kết hợp tuyến tính để được bảo tồn trong một không gian ít chiều hơn. Phương pháp được áp dụng trong học máy có giám sát, không có giám sát và bán giám sát.

Dựa vào các định nghĩa ở trên, mục tiêu của GLSPFS là:

22,1min | AXW-V || (W X L XW) || W ||T T

FW

tr (2.17)

Trong đó l là số lượng dữ liệu được gán nhãn, l nA là một ma trận lựa chọn nhị phân.

Nó chọn các dữ liệu được gán nhãn trên tất cả các dữ liệu X khi cả dữ liệu được gán nhãn và chưa được gán nhãn là có sẵn. A sẽ suy biến một ma trận khi và chỉ khi dữ liệu gán

nhãn hoặc chưa được gán nhãn là có sẵn. n nL là ma trận đặc trưng cấu trúc hình học

cục bộ của tập dữ liệu. V là mục tiêu hồi quy, 2|| AXW-V ||F khai thác cấu trúc toàn cục bởi

các cặp mẫu tương tự, (W X L XW)T Ttr sử dụng để xét các cấu trúc hình học cục bộ và

được điều khiển bởi tham số .

a) Phương pháp LLE(Local Linear Embedding)

Cho (1 i n)iy là đại diện thấp chiều của (1 i n)ix . Trong LLE, k láng giềng gần

nhất của mỗi mẫu được xác định bởi công thức tính khoảng cách Euclidean. Hệ số lỗi được giảm thiểu thông qua:

2

ij1 1

min (S) || x ||n n

S i ji j

S x

(2.18)

Trong đó S là một ma trận với các mục thực và nó là biến đã được tối ưu hóa. Đầu vào Sij chỉ ra thuộc tính của mẫu jth để xây dựng lại mẫu ith. Để tối ưu hóa S, đầu tiên

mỗi mẫu xi chỉ được xây dựng lại từ k láng giềng gần nhất của nó, tức là nó được thực thi Sij=0 nếu xi và xj không phải là hàng xóm với nhau. Sau khi thu được S, LLE tính được một đại diện yi thấp chiều cho mỗi xi bằng cách xây dựng một biểu đồ bảo tồn quan hệ hàng xóm. Điều này được thực hiện bởi:

2ij

1 1

min (S) || y ||n n

Y i ji j

S y

(2.19)

Trong đó 1,..., yT

nY y . Kết hợp các công thức (2.17), (2.18) vào (1.19) ta được

bài toán lựa chọn đặc trưng LLE như sau:

36

2

2ij 2,1

1 1

min || AXW-V || || W x W || || W ||d r

n nT T

F i jW

i j

S x

(2.20)

Và (2.20) có thể được viết lại như sau:

2

1 2,1min || AXW-V || (W X L XW) || W ||d r

T TF

Wtr

(2.21)

b) Phương pháp LPP (Linear Preserve Projection) Trong phương pháp này, ma trận S được xác định bởi:

2

2ij

|| x x ||exp( )

2

0

i j

S

(x )or (x )i k j j k ix N x N

otherwise

(2.22)

Trong đó (x )k jN biểu thị tập hợp các k láng giềng gần nhất của xi và là tham số chiều

dài. LPP tối ưu hóa tuyến tính biển đổi W bởi:

2ij

W, j 1

min || W x W x ||n

T Ti j

i

S

(2.23)

Kết hợp công thức trên vào mục tiêu bài toán ban đầu, ta có được thuật toán lựa chọn đặc trưng thứ hai LPP với mục đích của bài toán như sau:

2 2ij 2,1

, j 1

min || AXW-V || (W x W x ) || W ||d r

nT T

F i jW

i

S

(2.24)

Và có thể được viết lại như sau:

22 2,1min || AXW-V || (W X L XW) || W ||

d r

T TF

Wtr

(2.25)

Trong đó L2 là ma trận Laplacian là L2 = D – S. D là ma trận chéo hóa với ij1

n

iij

D S

c) Phương pháp LTSA (Local Tangent Space Alignment)

LTSA mô tả các thuộc tính cục bộ với dữ liệu nhiều chiều sử dụng không gian tiếp tuyến

cục bộ của mỗi mẫu. Mục đích của nó là tìm giá trị cực tiểu:

1

min (Y) (Y S B S )n

T TY i i i

i

tr Y

(2.26)

37

Trong đó Si(i=1…n) là một hàng của ma trận lựa chọn. Bằng cách xấp xỉ Y với phép biến đổi tuyến tính XW, (2.26) được rút gọn thành:

W 31

min (W) (W W)n

T T

i

tr X L X

(2.27)

Trong đó 31

B Sn

Ti i i

i

L S

. Sau khi thay thế L trong bài toán mục tiêu ban đầu bằng L3, ta

được mục tiêu của bài toán LTSA như sau:

23 2,1min || AXW-V || (W X L XW) || W ||

d r

T TF

Wtr

(2.28)

Kết hợp các phương pháp trên để tối ưu hóa mục tiêu bài toán ban đầu.

2.4. Ý tưởng khai thác ngữ cảnh trong khóa luận

Từ tập dữ liệu thô ban đầu được công ty DataSection Việt Nam cung cấp, khóa

luận trích xuất tập dữ liệu thô liên quan đến việc đánh giá các mục điện thoại smartphone của Samsung. Dữ liệu chủ yếu được thu thập từ trang https://www.facebook.com/cellphones.befirst.always, là một trang của hệ thống cửa hàng

bán điện thoại Cellphones. Lý do chọn nguồn dữ liệu từ trang này có các lý do chính như sau:

(1) Sau quá trình tìm kiếm các trang về điện thoại Samsung trên Facebook, nhận thấy rằng hiện nay, có rất nhiều trang với số lượng like rất lớn (trên 2 triệu like). Đặt ra một câu hỏi là số lượng like này có thể có được từ like ảo? Mặt khác, hệ thống cửa hàng Cellphones là một hệ thống bán điện thoại có uy tín, được đánh giá bởi người dùng trên các diễn đàn, các trang mạng xã hội khác

nhau, với số lượng đại lý trải dài từ Bắc vào Nam; trong đó tập trung vào 2 thành phố lớn là Hà Nội và thành phố Hồ Chí Minh.

(2) Với thị hiếu khách hàng hiện nay, người dùng hầu như chỉ quan tâm đến dòng điện thoại thông minh. Do đó mà khóa luận xác định đặc trưng cục bộ của

người dùng là có quan tâm đến dòng mục này trên chính page Facebook của Cellphones. Việc quan tâm hay không được dựa vào hành động like, hay

comment của chính người dùng với các bài post về sản phẩm của Samsung.

Từ tập người dùng khai thác được ở trên, tiến hành đánh giá quan điểm của người dùng, phân lớp người dùng vào các lớp thể hiện quan điểm thông qua các trọng số. Trong

khóa luận quy ước các trọng số của quan điểm người dùng như sau: {1,2,3,4,5}. Trong đó, theo thứ tự các trọng số thể hiện quan điểm: rất tệ, xấu, trung lập, tốt, rất tốt. Để thực hiện việc gán trọng số cho các comment của người dùng, tôi có đưa ra một tập từ thể hiện

38

quan điểm trong tiếng Việt như: tập từ negative(chả, chê, xấu, tệ, kém…), tập từ positive(tốt, bền, ngon, chuẩn, yêu, thích…), tập từ chỉ mức độ(rất, khá, hơn, được, hơi, tạm…)

Từ đó, kết hợp cả hai trọng số trên để đưa ra đánh giá cho một mục.


Chương 2 đã trình bày chi tiết phương pháp ma trận nhân tử trong tư vấn cũng như tiềm năng khai thác ngữ cảnh trên phương tiện xã hội trong tư vấn. Nổi bật nhất là trong chương này cũng đã đề cập đến ý tưởng thực hiện việc khai thác ngữ cảnh vào hệ tư vấn được áp dụng trong khóa luận.

Sang chương 3, khóa luận sẽ đi vào chi tiết một mô hình cụ thể về tư vấn xã hội trên phương tiện xã hội Facebook. Mô hình này giải quyết bài toán tư vấn có áp dụng ngữ cảnh vào tư vấn. Với tập dữ liệu là các mục điện thoại Smartphone của Samsung cùng các đánh giá của người dùng.

39

Chương 3. Một mô hình tư vấn xã hội dựa trên quan hệ xã hội trong Facebook.

3.1. Giới thiệu sơ bộ

Trong [14, 16] có giới thiệu hai mô hình LOCABAL và GLSPFS có áp dụng khai

thác kết hợp ngữ cảnh toàn cục, cục bộ. Tuy nhiên, do tập dữ liệu của họ là sẵn có các đánh giá tương ứng với sản phẩm. Mặt khác, mạng lưới xã hội đã có tính kết nối với nhau.

Hơn nữa, tập dữ liệu thực nghiệm mà họ đề xuất thực hiện với miền đánh giá là tiếng Anh, nên tập từ thể hiện quan điểm là có sẵn.

Mặt khác, hiện nay, với hệ thống tiếng Việt, chưa có một tập thuật ngữ chuẩn dành

cho việc đánh giá quan điểm người dùng. Chính vì vậy, hệ thống của tôi phải tự xây dựng những thuật ngữ này dựa trên kinh nghiệm bằng cách thủ công. Khóa luận tập trung phân tích tương tác của người dùng trên một page của hệ thống cửa hàng bán điện thoại trên Facebook là Cellphones. Vậy áp dụng khai thác ngữ cảnh toàn cục, cục bộ như thế nào?

Các mục sau sẽ trả lời cho câu hỏi đó.

3.1.1. Ngữ cảnh xã hội cục bộ

Với thị hiếu khách hàng hiện nay, người dùng hầu như chỉ quan tâm đến dòng điện thoại thông minh. Do đó mà khóa luận xác định đặc trưng cục bộ của người dùng là có quan tâm đến dòng mục này trên chính page Facebook của Cellphones. Việc quan tâm hay không được dựa vào hành động like, hay comment của chính người dùng với các bài post về sản phẩm của Samsung.

3.1.2. Ngữ cảnh xã hội toàn cục

Từ tập người dùng khai thác được ở trên, tiến hành đánh giá quan điểm của người

dùng, phân lớp người dùng vào các lớp thể hiện quan điểm thông qua các trọng số. Trong khóa luận quy ước các trọng số của quan điểm người dùng là tập {1,2,3,4,5}. Trong đó,

theo thứ tự các trọng số thể hiện quan điểm: rất tệ, xấu, trung lập, tốt, rất tốt. Để thực hiện việc gán trọng số cho các comment của người dùng, tôi có đưa ra một tập từ thể hiện

quan điểm trong tiếng Việt như: tập từ negative(chả, chê, xấu, tệ, kém…), tập từ positive(tốt, bền, ngon, chuẩn, yêu, thích…), tập từ chỉ mức độ(rất, khá, hơn, được, hơi, tạm…)

Từ đó, kết hợp cả hai trọng số trên để đưa ra đánh giá cho một mục. Giả định rằng, trọng số cho một mục sẽ được quyết định bởi 2 yếu tố là: (1) số lượng like và comment của người dùng, đồng thời xem trọng số đó có giá trị là 1 thì tỷ phần của like sẽ chiếm 0.3, và comment là 0.7. Nguyên nhân là do trên mạng xã hội Facebook thì trọng số của

comment luôn cao hơn like ở một mức độ nào đó. Hơn nữa, số lượng like hiện nay hiển

40

thị trên trang mạng thường không phải là con số thực sự chính xác. Bởi vấn đề của Facebook hiện giờ là có các thủ thuật hack để tăng lượng like của page, post…(2) dựa vào số lượng đánh giá tốt của người dùng. Tương ứng với hai yếu tố trên, sau đây khóa luận gọi là rateFactor1, rateFactor2.

Số lượng like của một post(mục) lấy được thông qua Facebook API, mà trong khóa luận sử dụng restFb API. Tuy nhiên, số lượng like lấy về khoảng 97% trên tổng số like thực của một post. Sai số này là có thể chấp nhận được. Một cách định lượng, công thức

sau được đưa ra để tổng quát hóa cách tính hạng của một mục khi xét ở khía cạnh số lượng like và số lượng đánh giá của người dùng như sau:

rateFactor2 = 0.3 er 0.7 erlikeNum commentNumb (3.1)

Khi xét đến các quan điểm của người dùng, yếu tố quyết định đến hạng của sản phẩm còn được xác định bởi:

rateFactor1 = erGoodComment

erGoodComment er d

numb

numb numb Ba Comment (3.2)

Tổng hợp lại ra được hạng của một sản phẩm được xác định bởi:

ratePost = rateFactor1 + rateFactor2

Do hạn chế về thời gian, nên khóa luận đề xuất tỉ phần tác động của số like và comment của một bài post tương ứng là 0.3 và 0.7. Bằng trực giác, khóa luận cho rằng tỉ lệ này tương đối hợp lý và cho kết quả với sai số có thể chấp nhận được.

Để thuận tiện cho việc lưu trữ dữ liệu, ratePost được nhân với hệ số 10 để làm tròn

số. Từ đó quy về thang điểm để đánh giá post là 10.

3.2. Mô hình tổng quan

Mô hình tư vấn thực hiện 4 pha chính:

- Trích xuất dữ liệu (tập chủ đề, các đánh giá của người dùng tương ứng với chủ đề.)

- Đánh giá quan điểm của người dùng.

- Xếp hạng người dùng, xếp hạng sản phẩm.

- Đưa ra danh sách các sản phẩm để tư vấn.

Trong mỗi pha lại có những bài toán con cần thực hiện mà sau đây sẽ trình bày chi tiết.

a) Trích xuất dữ liệu:

Input:

o Tập các dữ liệu từ nhiều page khác nhau trên Facebook.

41

o pageID của page Cellphones

Output:

o Tập các bài viết trên page Cellphones (các bài post gồm có link post, content post)

b) Trích xuất thêm đặc trưng người dùng(like post):

Input: Tập bài viết trên page Cellphones(link post)

Output: số lượng like và userID của người like mỗi bài post.

c) Phân tích dữ liệu:

Input:

o Tập bài viết trên page Cellphones

o Tập các Keyword là tên các sản phẩm điện thoại thông minh của Samsung.

Output:

o Các sản phẩm được page nhắc đến trên trang của page.

o Các comment của người dùng với mỗi post (userID, content of comment)

d) Đánh giá quan điểm của người dùng:

Input:

o Tập comment của người dùng.

o Tập các keyword thể hiện quan điểm (negative, postitive, weight)

o Các trọng số thể hiện mức độ đánh giá [1, 5]

Output: Các comment đã được gán nhãn quan điểm

e) Xếp hạng người dùng:

Input: userID, tập comment của người dùng

Output: tập người dùng đã được xếp hạng

f) Xếp hạng sản phẩm:

Input:

o Tập các comment của người dùng đã được gán nhãn, số lượng like của mỗi bài post.

o Trọng số quy ước: like: 0.3, comment: 0.7.

Output: Tập sản phẩm đã được xếp hạng.

42

Từ tập sản phẩm và người dùng đã được xếp hạng cao, ta tiến hành tư vấn cho nhóm người dùng. Sau đây là mô hình thể hiện tổng quan hệ thống đã nêu trên:

43

Hình 3. 1. Một mô hình tư vấn trên phương tiện xã hội Facebook.

44

3.2.1. Chi tiết các bước của các pha trong mô hình

3.2.1.1. Trích xuất dữ liệu

Từ tập dữ liệu được công ty Data Section Việt Nam cung cấp, khóa luận đã phân tích để trích xuất ra tập dữ liệu cần có. Trước tiên là việc đọc và phân tích dữ liệu, khóa

luận nhận thấy page Facebook của Cellphones có pageID là “114771895207322”. Do đó, khóa luận tiến hành trích xuất các dữ liệu liên quan đến page này, loại bỏ các dữ liệu

không cần thiết. Do file dữ liệu cung cấp có định dạng của file json, vì thế nên việc xác định từng phần của dữ liệu (chủ đề, các comment…) được thực hiện thông qua các ký tự phân tách mỗi phần(content, dấu {…).

Đầu vào: Tập dữ liệu có sẵn, tập tên các sản phẩm điện thoại di động thông minh của Samsung.

Đầu ra: Tập dữ liệu liên quan đến page Cellphones.

Các bước:

1. Đọc dữ liệu có sẵn, xác định được page ID của Cellphones là 114771895207322.

2. Tìm dữ liệu của page:

a. Đọc từng dòng của file.

b. Nếu dòng đó có chứa “114771895207322” thì ghi ra file output.

c. Nếu không thì bỏ qua, đọc dòng tiếp theo.

3. Phân tách dữ liệu ở mỗi dòng từ file output ở trên thành kiểu String

thông qua các biểu thức chính quy.

4. Trích xuất ra tên sản phẩm, các đánh giá của người dùng dành cho sản

phẩm từ mỗi dòng dữ liệu.

5. Trả về tên các sản phẩm được nói đến, tập các đánh giá của người dùng

với sản phẩm đó.

Ví dụ sau đây minh họa một phần dữ liệu mẫu có được. Quan sát đoạn dữ liệu này, ta thấy rằng, mỗi dòng dữ liệu đều có cấu trúc của file json. Nếu dòng đó là dữ liệu của một

bài post thì trong url sẽ không có tham số fid và comment_id. Dựa vào biểu thức chính quy mà ta tìm được dữ liệu cần lấy thông qua hàm spit() do Java cung cấp. Từ đó ta lấy

được số lượng like của mỗi bài post thông qua url của mỗi bài.

45

Hình 3. 2. Một đoạn dữ liệu mẫu

3.2.1.2. Đánh giá quan điểm người dùng

Từ tập đánh giá trích xuất được ở trên cùng với tập từ thể hiện quan điểm được định nghĩa trước, chúng ta tiến hành gán nhãn quan điểm cho mỗi đánh giá của người dùng. Trong đó, tập các từ thể hiện quan điểm được định nghĩa như sau:

BAD_SENTIMENT = { "chả", "chê", "xấu", "tệ", "kém", "shit", "tồi", "chán", "nản", "ghét", "thua", "chậm" };

GOOD_SENTIMENT = { "ngon", "tốt", "bền", "được", "chuẩn", "thích", "yêu", "nhanh", "khỏe", "đẹp", "hay", "tiện" };

WEIGHT_SENTIMENT = { "ghê", "vãi", "hơn", "khá", "nhất", "rất" , "được", "hơi", "tạm"};

Trong đó, BAD_SENTIMENT là tập các từ negative, GOOD_SENTIMENT là tập các từ positive, WEIGHT_SENTIMENT là tập các từ thể hiện mức độ đánh giá của người dùng(nhấn mạnh ý khen, chê).

Tập các nhãn được xác định là bộ số nguyên có giá trị trong đoạn [1, 5]. Trong đó, 1 thể hiện quan điểm đánh giá rất xấu, 2: xấu, 3: trung lập, 4: tốt, 5: rất tốt.

Đầu vào: Tập các câu đánh giá của người dùng, tập các từ thể hiện quan điểm, tập các nhãn.

Đầu ra: Tập các câu đã được gán nhãn.

Các bước:

1. Đọc từng câu đánh giá.

2. Lặp cho đến hết độ dài của câu đánh giá:

46

a. Kiểm tra trong câu có chưa tập từ thể hiện quan điểm hay không?

i. Nếu có, tiếp tục kiểm tra nó chứa từ negative hay positve.

ii. Kiểm tra từ chỉ mức độ đánh giá.

iii. Trả về nhãn được gán cho câu tương ứng là một trong các giá trị

nguyên từ 1-5.

b. Nếu không, thì bỏ qua.

3. Trả về tập câu đã được gán nhãn.

Ví dụ sau minh họa một phần việc gán nhãn cho câu đánh giá của người dùng:

Hình 3. 3. Một đoạn dữ liệu đã gán nhãn quan điểm của người dùng.

Các từ khoanh tròn ở trên là những từ thể hiện quan điểm của người dùng. Khoanh hình vuông là nhãn của câu đánh giá. Từ đó ta có nhận xét rằng, các câu đánh giá của người dùng không phải chỉ dành cho chính sản phẩm được bài post giới thiệu. Mà người dùng còn đề cập đến các sản phẩm khác. Điều này vô tình tạo ra nhiễu trong quá trình xử lý

gán nhãn. Tuy nhiên, phương pháp này cũng đã đánh giá chính xác phần nào đó quan điểm của người dùng dành cho sản phẩm mà họ quan tâm.

3.2.1.3. Xếp hạng người dùng, sản phẩm

Với phương pháp đã đề xuất, việc xếp hạng sản phẩm được dựa vào điểm số của

mỗi sản phẩm được đánh giá bởi người dùng. Từ tập dữ liệu đã gán nhãn quan điểm của người dùng, cùng với số lượng like thu thập được của mỗi bài post, khóa luận tiến hành đánh hạng cho mỗi sản phẩm tương ứng với mỗi bài post. Ý tưởng chính của việc xác định hạng của sản phẩm(bài post) là dựa vào hai yếu tố như đã đề cập ở trên là rateFactor1 và rateFactor2.

47

a) Xếp hạng sản phẩm

Đầu vào: Tập dữ liệu đã gán nhãn quan điểm của người dùng, số lượng like của mỗi bài post.

Đầu ra: Hạng của mỗi bài post(sản phẩm tương ứng).

Các bước:

1. Tính tổng số comment của bài post.

2. Tính số comment được gán nhãn cao(>=3), số comment được gán nhãn

thấp(< 3).

3. Tính rateFactor1 = goodComment / (badComment + goodComment)

4. Tính

rateFactor2 =

0.3 er 0.7 er

er er

likeNum commentNumb

likeNumb commentNumb

5. ratePost = rateFactor1 + rateFactor2.

6. Trả về hạng của sản phẩm đã được đánh giá.

b) Xếp hạng người dùng

Để xếp hạng của người dùng, khóa luận dựa vào số lượng like và đánh giá của người dùng với các bài post trên page. Tương tự với việc xếp hạng sản phẩm, trong

xếp hạng người dùng, trọng số của like và comment tương ứng là 0.3 và 0.7. Lý do xác định được trọng số này đã đề cập ở phần trên.

Đầu vào: Số lượng like và số lượng đánh giá các bài post trên page.

Đầu ra: Hạng của người dùng.

Các bước:

1. Lấy thông tin của người dùng thông qua restFb API: bao gồm số lượng like và comment của người dùng.

2. Tính hạng của người dùng:

0.3 er 0.7 er

rateUser = er er

numb Like numb Comment

numb Like numb Comment

3. Trả về kết quả là hạng của người dùng.

48

3.2.1.4. Tư vấn cho người dùng

Từ kết quả có được ở bước 3 ta rút ra được tập sản phẩm đang được người dùng

quan tâm nhiều nhất thông qua giá trị hạng của sản phẩm. Hạng càng cao thì sản phẩm đó được đánh giá là tốt và có nhiều người quan tâm nhất. Tương tự với tập dữ liệu là hạng của người dùng. Người dùng có hạng càng lớn thì chứng tỏ họ có ảnh hưởng lớn trong cộng đồng người dùng có cùng quan tâm đến dòng sản phẩm điện thoại di động thông

minh của Samsung. Do đó mà các đánh giá của họ sẽ được đánh giá cao hơn.

Kết hợp hai yếu tố trên, ta đưa ra danh sách các sản phẩm được đánh hạng tốt và có sự tham gia đánh giá của người dùng có hạng cao.


Chương 3 của khóa luận trình bày về tư tưởng chính của phương pháp thực hiện bài

toán tư vấn trên phương tiện xã hội Facebook cũng như một số công trình liên quan. Khóa luận cũng đã giới thiệu chi tiết các pha cũng như từng bước thực hiện trong mỗi pha của hệ thống.

Trong chương tiếp theo, khóa luận tiến hành thực nghiệm trên phương pháp đã xây dựng và đánh giá kết quả đạt được.

49

Chương 4. Thực nghiệm và đánh giá

4.1. Giới thiệu chung

Dựa vào mô hình đề xuất ở chương 3, khóa luận tiến hành thực nghiệm việc trích chọn chủ đề (tên các sản phẩm) cũng như các đánh giá của người dùng với sản phẩm

tương ứng. Để làm rõ mô hình đề xuất cũng như các pha trong mô hình, các thực nghiệm trên miền sản phẩm điện thoại thông minh của Samsung được tiến hành.

Mục đích của quá trình thực nghiệm nhằm đưa ra được bộ sản phẩm tốt, được đánh giá cao để tư vấn cho người dùng trên page Facebook của Cellphones. Qua đó rút ra được

các dòng sản phẩm đang được người dùng quan tâm. Nói cách khác, thực nghiệm là quá trình hiện thực hóa mô hình đã nêu ở Chương 3. Từ đó, giúp cho Cellphones đưa ra chiến lược bán hàng của mình để nâng cao doanh số (nên nhập kho các dòng sản phẩm nào…); hoặc cung cấp cho Samsung thị hiếu của người dùng Việt Nam để hãng có thể đưa ra giải pháp cải tiến, mở rộng thị trường.

Tập dữ liệu được dùng để tiến hành thực nghiệm là một file dữ liệu đã được lọc tách ra từ tập dữ liệu nguồn ban đầu, gồm có 4283 bản ghi. Mỗi bản ghi(dòng) gồm có url của mỗi bài post trên page Facebook của Cellphones, cùng với đó là các đánh giá của người dùng(nếu có) với bài post đó(sản phẩm). Định dạng của file là json, do đó mà việc phân tích dữ liệu được thực hiện dễ dàng.

Các phương thức tiến hành thực nghiệm đã được giới thiệu ở Chương 3. Để cụ thể hóa các bước thực hiện mô hình đã nêu, khóa luận tiến hành xây dựng 4 module chính để

xử lý như sau:

- Vnu.ktlab.hoaitt_56.Algorithms: gồm có class thực hiện thuật toán đánh giá quan điểm người dùng, tính hạng của người dùng và tính hạng của bài post.

- Vnu.ktlab.hoaitt_56.Data: gồm các class object thể hiện thông tin của dữ liệu như comment, post, user…

- Vnu.ktlab.hoaitt_56.Programs: gồm có class chính thực hiện các chức năng được cài đặt ở các package khác và một class thực hiện việc gom các post nói về cùng một sản phẩm.

- Vnu.ktlab.hoaitt_56.Utilities: package này có các class định nghĩa tập keyword

thể hiện quan điểm của người dùng (tập từ negative, positive, từ mang trọng số) cũng như tập keyword là tên các sản phẩm điện thoại di động thông minh của

Samsung. Bên cạnh đó, package này chứa class xử lý việc đọc file, tách dữ liệu thành các tập liên quan đến postType và các comment.

50

Hình 4. 1. Các module chính của phần mềm.

4.2. Phần mềm thực nghiệm

Cấu hình phần cứng

Thành phần Chỉ số

CPU 2.5 GHz Core Intel

RAM 4 GB

OS Windows 8.1

Bộ nhớ ngoài 500GB

Bảng 3. Cấu hình hệ thống thực hiện thực nghiệm

Các phần mềm sử dụng

51

STT Tên phần mềm Tác giả Nguồn

1 Eclipse Standard 4.3.2 Kepler – 64 bit

https://www.eclipse.org

2 restFb API Open source software http://restfb.com/

3 Json simple 1.1.1 A simple Java toolkit https://code.google.com/p/jso

n-simple/

4 Microsoft Excel 2013 Microsoft https://store.office.com

Bảng 4. Các công cụ phần mềm được sử dụng

4.3. Dữ liệu

Khóa luận thực nghiệm trên miền dữ liệu là các tương tác đánh giá của khách hàng trong miền sản phẩm điện thoại di động thông minh của hãng Samsung(Samsung Galaxy). Tập dữ liệu thô ban đầu chúng tôi được công ty Data Section Việt Nam cung cấp, bao

gồm dữ liệu trên nhiều page, forum khác nhau, thuộc nhiều miền dữ liệu khác nhau như: ca nhạc, phim, tác giả nổi tiếng…Từ tập dữ liệu này, tôi thực hiện việc trích chọn dữ liệu liên quan trên page https://www.facebook.com/cellphones.befirst.always. Đây là page

chính thức của hệ thống cửa hàng bán điện thoại di động Cellphones có số lượng các đại lý rất lớn, đặc biệt ở thị trường thành phố Hà Nội và thành phố Hồ Chí Minh. Mặt khác,

nhà phân phối này cũng đã nhận được nhiều đánh giá tích cực từ cộng đồng người dùng trên các trang mạng xã hội khác nhau như tinhte.vn, nhattao.vn, vn-zoom.com…Điều đó

phản ánh một mức nào đó độ tin tưởng của người dùng với chính nhà phân phối này cũng như sự chính xác của các tương tác trên page Facebook.

Tập các đánh giá và bài post thu thập được tính đến ngày 10/10/2014. Căn cứ vào dữ liệu được cung cấp trên trang http://www.Samsung.com/vn là trang chủ của Samsung để giới thiệu các dòng sản phẩm điện thoại của hãng cho người dùng được biết; tôi thực hiện việc định nghĩa tập sản phẩm điện thoại thông minh của hãng gồm có 27 dòng sản phẩm khác nhau: { "s3 mini", "trend lite", "trend plus", "note 4", "note 3", "note 2", "grand prime", "grand 2", "ace 3", "ace 2", "ace dous", "pocket neo", "y dous", "s dous", "mega 6.3", "s4 zoom", "s5", "s4", "s3", "trend", "core", "grand", "mega", "young", "beam", "win", "fame"}.

Một số quan sát trong quá trình thực nghiệm cho thấy, có một số đánh giá của người dùng sử dụng ký tự xuống dòng quá nhiều lần, làm cho việc đọc file dữ liệu gặp một số lỗi. Điều này cần phải được chú ý trong mỗi lần đọc file dữ liệu.

Bộ dữ liệu sau khi lọc tách từ nguồn dữ liệu ban đầu có 4283 bản ghi, bao gồm tên sản phẩm, các đánh giá của người dùng ứng với sản phẩm đó. Hình dưới đây mô tả một phần dữ liệu tách được:

52

Hình 4. 2. Một đoạn dữ liệu về các comment của sản phẩm tách được

4.4. Kết quả thực nghiệm và nhận xét

Quá trình thực nghiệm như mô tả ở chương 3 đã đề cập ở trên. Trong quá trình thực hiện xếp hạng cho người dùng, khóa luận đã thu được bộ dữ liệu với 868 người

dùng tham gia đánh giá sản phẩm trên page Facebook, với tổng số đánh giá xấp xỉ 1050 đánh giá khác nhau. Sau đây là một phần dữ liệu đã thu thập được:

Hình 4. 3. Thông tin người dùng thu thập được

Trong hình trên mô tả các thông tin người dùng gồm có id, tên người dùng, Likes và Comments tương ứng là số lượng like và đánh giá mà người dùng thực hiện trên page

Facebook của Cellphones.

53

Nhằm phục vụ cho việc xếp hạng người dùng, khóa luận thực hiện việc tính hạng cho mỗi người dùng thông qua số lượng like và comment của mỗi người dùng trên chính page Facebook đó. Lý do là trọng số của like và comment như đã đề cập ở trên, tương ứng là 0.3 và 0.7. Như vậy, với những người dùng chỉ comment mà chưa có like thì độ quan tâm

của họ cũng giảm bớt; mặc dù nếu theo công thức tính hạng thì vẫn cho kết quả cao. Hay những người dùng chỉ like mà không comment, thì đặt ra câu hỏi là liệu like đó có phải là like ảo hay không? Nhằm tránh những trường hợp như thế, khóa luận lọc ra tập người

dùng vừa có like vừa có comment để xếp hạng. Kết quả thu được tập gồm 19 người dùng có trọng số cao thể hiện ở hình sau:

Hình 4. 4. Kết quả xếp hạng người dùng.

Với hình trên, cột đầu tiên là userId của người dùng, cột thứ 2 là tên của người dùng, các

cột còn lại theo thứ tự là số lượng comment, like, hạng của người dùng. Quan sát tập người dùng rút ra được này, ta thấy có xuất hiện người dùng CellphoneS-We Love

Phones. Đây cũng chính là tên của page mà ta đang xét. Người dùng này like và comment có số lượng lớn nhất. Hiển nhiên, do đây là page của họ nên người quản trị sẽ thường xuyên tương tác hơn bất kỳ người dùng nào khác. Bỏ qua trường hợp này, tập các người

dùng còn lại có hạng khá cao.

Với các bước được thực hiện như đã đề cập ở Chương 3, thực nghiệm thu được kết quả như sau:

54

Hình 4. 5. Kết quả thực nghiệm cho hạng của sản phẩm.

Nhận xét:

o Từ tập định nghĩa sản phẩm ban đầu có 27 tên sản phẩm khác nhau của điện thoại di động thông minh Samsung, thực nghiệm thu được kết quả đánh giá của 5 sản phẩm {grand, note 4, s5, trend, win}. Điều này cho thấy thị hiếu của người dùng

dành cho tập sản phẩm của hãng có xu hướng quan tâm nhiều hơn đến 5 sản phẩm nói trên. Các dòng sản phẩm còn lại tuy được đầu tư nhưng chưa được người dùng

thực sự quan tâm đến.

o Trong số 5 sản phẩm thu được, thì grand và note 4 là hai sản phẩm được đánh giá cao nhất. Điều này chứng tỏ người dùng đặc biệt quan tâm đến hai dòng sản phẩm này. Từ chất lượng, giá cả đến các tính năng nổi trội.

Đánh giá

Để đánh giá độ chính xác của việc tư vấn từ phương pháp thực hiện ở mô hình mô tả trong Chương 3, khóa luận sử dụng các sai số sau[4]:

Sai số căn bậc hai bình phương trung bình:

55

2

ij ijij

1S ( )RM E r r

n (4.1)

Sai số trung bình tuyệt đối (MAE):

ij ijij

| |

E

r r

MAn

(4.2)

Sai số trung bình tuyệt đối chuẩn (NMAE):

max min

EE

MANMA

r r

(4.3)

Trong đó, ijr là đánh giá dự đoán mà mô hình thực hiện được, rij là đánh giá thực tế. Để

thu được đánh giá thực tế, khóa luận dựa vào kinh nghiệm cá nhân và tiến hành đánh giá

thủ công các comment thu thập được ở phần trên.

Kết quả thu được S 0.98, E 0.53, E 0.13RM E MA NMA . Qua đó có thể thấy, các sai số

là nhỏ, nằm trong khoảng có thể chấp nhận được. Từ đó cho thấy kết quả thực nghiệm là tốt, có tính áp dụng cao trong thực tiễn.

Ứng dụng:

Từ kết quả thực nghiệm thu được, có thể đưa ra cái nhìn tổng quát cho Samsung để họ có thể thay đổi chiến lược quảng bá sản phẩm hoặc cải thiện các dòng sản phẩm chưa được đánh giá cao. Đồng thời, tiếp tục củng cố, nâng cấp các dòng sản phẩm đang được người dùng ưa chuộng. Tất nhiên, sản phẩm được đánh hạng thấp hay chưa được đánh giá, còn

tùy thuộc vào nhiều yếu tố. Trong đó có vấn đề dữ liệu thưa như đã đề cập ở chương 1. Kết quả thực nghiệm của khóa luận kỳ vọng áp dụng vào thực tiễn theo dõi thị hiếu của

người dùng cho hãng điện thoại Samsung.


Trong chương này, tôi đã tiến hành thực nghiệm, xem xét và đánh giá kết quả của quá trình thử nghiệm mô hình tư vấn trên phương tiện xã hội Facebook, ứng với miền sản

phẩm điện thoại di động thông minh của Samsung. Qua phân tích cho thấy phương pháp sử dụng trong khóa luận có thể áp dụng được trong thực tiễn.

56

Kết luận

Kết quả đạt được của khóa luận

Trong khóa luận này, dựa trên các nghiên cứu của Jiliang Tang và cộng sự, tôi đề xuất một mô hình tư vấn dựa trên ngữ cảnh xã hội toàn cục, cục bộ từ phương tiện xã hội Facebook. Đồng thời, khóa luận đã xây dựng một phần mềm thi hành mô hình đề xuất

nói trên. Tiến hành thực nghiệm trên miền dữ liệu sản phẩm điện thoại di động thông minh, kết quả thu được bộ sản phẩm đang được người dùng đánh giá cao, cùng với đó là

tập người dùng được xếp hạng cao. Sai số trung bình tuyệt đối chuẩn của mô hình khóa luận thực nghiệm cho kết quả xấp xỉ 0.13. Sai số này có giá trị nhỏ, chứng tỏ mô hình

thực nghiệm đạt kết quả tốt. Từ đó, có thể sử dụng bộ sản phẩm này để tư vấn cho người dùng cũng đang quan tâm đến các dòng điện thoại di động thông minh.

Do hạn chế về thời gian, nên khóa luận chưa xử lý hết các vấn đề trong câu đánh giá

của người dùng, ví dụ như trường hợp người dùng sử dụng teencode, ký tự không dấu… Hơn nữa tập thuật ngữ đánh giá trong tiếng Việt đưa ra cũng chưa đầy đủ, nên việc đánh giá quan điểm người dùng còn nhiều hạn chế. Mặt khác, vấn đề người dùng comment trên các bài post gặp phải một số tình huống như thay vì đưa ra đánh giá quan điểm về

sản phẩm, người dùng lại so sánh với sản phẩm khác; hoặc là người dùng tag bạn bè của họ vào comment…

Định hướng tương lai

Hệ thống tư vấn sử dụng mô hình đã đề xuất cần được cải tiến để cho kết quả tốt hơn. Trước mắt, bộ giá trị trọng số của like và comment trong tập {0,6 – 0.9} cần được

khảo sát công phu để nhận được bộ giá trị trọng số nào cho kết quả tốt nhất có thể được. Đồng thời, dữ liệu để thực nghiệm cần được thu thập thêm để làm giàu tập dữ liệu học. Lâu dài, các phương pháp dựa vào mạng xã hội niềm tin để tăng hiệu quả tư vấn sẽ được nghiên cứu để áp dụng vào hệ thống. Việc mở rộng miền ứng dụng từ miền điện thoại di

động thông minh sang các miền ứng dụng khác cũng cần được quan tâm.

57

Tài liệu tham khảo

Tài liệu tiếng Việt

[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình khai phá dữ liệu Web, Nhà xuất bản Giáo Dục Việt Nam,

2009.

[2] Nguyễn Song Hà, Hệ thống tư vấn website cho máy tìm kiếm dựa trên khai phá query log, Khóa luận tốt nghiệp, Trường ĐHCN-ĐHQGHN, 2009.

Tài liệu tiếng Anh

[4] Jiliang Tang, Xia Hu, Huan Liu, Social Recommendation: A Review, Social Netw.

Analys. Mining 3(4): 1113-1133, 2013.

[5] Reza Zafarani, Mohammad Ali Abbasi, Huan Liu, Social Media Mining: An Introduction, Cambridge University Press, pp 290 - 313, 2014.

[6] Jiliang Tang, Jie Tang and Huan Liu, Recommendation in Social Media: Recent Advance and New Frontiers, A KDD’2014 Tutorial (August 24, 2014), 2014.

[7] King I, Lyu MR, Ma Hao, Introduction to social recommendation, In: Proceedings of the 19th international conference on World wide web. ACM, New York, pp

1355–1356, 2010.

[8] Guy I, Carmel D, Social recommender systems, In: Proceedings of the 20th international conference companion on World wide web. ACM, New York, pp 283–28, 2011.

[9] Massa P, Avesani P, Trust-aware recommender systems, In: Proceedings of the 2007

ACM conference on recommender systems. ACM, New York, pp 17–24, 2007.

[10] Koren Y, Factorization meets the neighborhood: a multifaceted collaborative

filtering model, In: Proceeding of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, New York, pp 426–434, 2008.

[11] Ma Hao, Yang Haixuan, Lyu Michael R., King Irwin, Sorec: social recommendation using probabilistic matrix factorization, In: Proceeding of the 17th ACM conference on Information and knowledge management. ACM, New York, pp 931–940, 2008.

[12] Francesco Ricci, Lior Rokach, Bracha Shapira, Paul B. Kantor, Recommender

58

systems handbook, Springer.

[13] Jiliang Tang, Yi Chang, Huan Liu, Mining social media with social theories: a survey, SIGKDD Explorations 15(2): 20-29, 2013.

[14] Jiliang Tang, Xia Hu, Huiji Gao, Huan Liu, Exploiting Local and Global Social Context for Recommendation, IJCAI 2013, 2013.

[15] Ma Hao, King Irwin, Lyu Michael R., Learning to recommend with explicit and implicit social relations, ACM TIST 2(3): 29, 2011.

[16] X. Liu, Global and Local Structure Preservation for Feature Selection, IEEE Trans.

Neural Netw. Learning Syst. 25(6): 1083-1095, 2014.

[17] Ma Hao, On measuring social friend interest similarities in recommender systems,

SIGIR 2014: 465-474, 2014.

[18] Nicola Barbieri, Giuseppe Manco, Ettore Ritacco, Probabilistic Approaches to

Recommendations, Morgan & Claypool Publishers, 2014.

lỜi cẢm Ơn -...

Documents