- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Movie Recommender System From Taiwan
Data Mining Final Project:
A Classification Approach for Movie Recommender System
中山大學資訊管理研究所
M964020007黃于珊 M964020011李界寬 M964020022程尚文
1. INTRODUCTION
1.1 Motivation and background
Dataset來源自GroupLens(Research lab in the Department of Computer Science and Engineering at the University of Minnesota ; /),其研究領域包含以下範圍:
recommender systems
online communities
mobile and ubiquitous technologies
digital libraries
local geographic information systems
本次所使用的Dataset是來源自GroupLens研究領域Recommender Systems中的線上電影推薦系統MovieLens( / ),使用者連上MovieLens此網站,註冊成為其會員,並且對網站隨機抽取出來的數部電影進行評比的動作(評比分數為一分至五分,使用者評分越高,表示對該部電影越有興趣),評比完成後,即刻可以享受到網站給予的推薦,也就是網站會在網頁上顯示出五部欲推薦給使用者觀看的電影名稱,評比完成後,即刻可以享受到網站給予的推薦,也就是網站會在網頁上顯示出五部欲推薦給使用者觀看的電影名稱,並附上網站預測使用者會喜好該部電影的程度(Lee et al. 2001)。
Figure 1. /
由於老師之前在課程中有介紹過這個網站-MovieLens,所以希望可以利用此網站中關於電影推薦資料的DataSet來練習、嘗試找出一些推薦者的年齡、職業、性別等與其喜好的電影種類的相關規則,以作為此次的期末報告。
1.2 Determination of data set
MovieLens網站中的資料則為6,040位在西元2000年加入MovieLens的使用者對3,900 部電影所做出的1,000,209個評價。
由於此次的目標是為了找出推薦者的年齡、職業、性別等與其喜好的電影種類的相關規則,因此使用其目前提供兩種atasets,我們使用的Dataset為其中一種,內容包含1682部電影943 使用者共100,000 ratings也提供足夠的樣本規模,建立和測試模型。2. Data mining procedure
Berry 和 Linoff在The Data Mining Techniques此書中,建議進行Data Mining 時應遵循10步驟,以下將一一介紹本次報告遵循各步驟之執行Data Mining過程與內容。
Step 1. Translate the business problem into a data mining problem
電影種類與數目相當繁多,如何在眾多的電影中可以快速的找到自己偏好的電影種類對目前的電影愛好者來說是相當重要的,在此部份則希望可以利用電影推薦者的年齡、職業、性別等與其喜好的電影種類等屬性,Data Mining找出適當的決策樹(decision tree),找出相關的規則,可以用來推測出哪些職業、年齡、性別會偏好哪些種類的電影,以作為推薦電影系統的參考之一。
Step 2. Select appropriate data
基於Step1,此次的目標是為了找出推薦者的年齡、職業、性別等與其喜好的電影種類的相關規則,是故選擇MovieLens網站(電影推薦系統網站)中提供兩種atasets中的其中一種,內容包含1682部電影943 使用者共100,000 ratings
Step 3. Get to know the data
整個dataset資料都是cleaned up的,使用者評價少於20個的以及 使用者資料不完整都已經被移除。
1.在RATINGS 部份:
UserIDs 範圍為 1 到 943 ,MovieIDs範圍為 0 到 1682
評價以星等(1至5)來表示,每個使用者至少會有20次的評價
2.在USERS部份:
在使用者性別部份M代表男性,F 代表女性
年齡則以下範圍區分:
* 1: Under 18 * 18: 18-24 * 25: 25-34
* 35: 35-44 * 45: 45-49 * 50: 50-55 * 56: 56+
3.在職業部份:
* 0:
文档评论(0)