基于Mahout 命令电影聚类分析与实现.docVIP

下载本文档

18
0
约6.11千字
约 13页
2018-08-28 发布于福建
举报
版权申诉

基于Mahout 命令电影聚类分析与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Mahout 命令电影聚类分析与实现

基于Mahout 命令电影聚类分析与实现　　摘要：研究使用mahout命令进行电影聚类分析，介绍了聚类算法、分类算法及推荐过滤算法等。同时结合mahout的特点，分别呈现两种算法即K-means与Canopy+K-means的原理，并采用从电影网站中爬取的几十条数据对算法进行测试与实现，两种算法最终都直观地得出此聚类所代表的电影信息。　　关键词： Mahout；聚类分析；大数据；电影　　中图分类号：TP393 文献标志码：A 文章编号：1006-8228（2017）11-54-04 　　Implementing the clustering analysis of movies with Mahout 　　Ye Huixian， Huang Weigang 　　（Fujian Agricultural Vocational and Technical College， Fuzhou， Fujian 350007， China）　　Abstract： This paper studies the clustering analysis of movies using mahout， and introduces the clustering algorithm， classification algorithm and recommendation filtering algorithm. At the same time， combining with the characteristics of mahout， shows the principle of two kinds of algorithms respectively， i.e. K-means and Canopy+K-means， and the algorithms are tested and implemented with dozens of data climbed from movie website， both algorithms intuitively show the information of the movies represented by the cluster. 　　Key words： Mahout； clustering； big data； movie 　　0 引言　　互联网娱乐在大数据浪潮中迎来了新的挑战，如何在各种网站海量的视频中找到感兴趣的内容就成了新的难题。中国电影产业正处于高速发展期，据中国电影产业《2017-2022年中国电影行业深度调研及投资前景预测报告》数据中显示：国产电影2016年我国共生产故事片772部，动画片49部，科教片67部，记录片32部，特种片24部，总计944部，超过前十年峰值，2016年国产电影放映率仅40%，相比美国100%上映率，资源严重浪费[1]。电影票房惨淡可能导致前期的巨大投入无法收回，因此电影人必须谨慎考虑每个因素对票房的影响，到底什么类型的电影才能卖得好？这是本文数据分析要解决的问题。电影网站上的数据非常庞大，抓取到的文本信息甚至需要以TB为单位来存储，所以在进行大数据量的代码实现之前，要先对小数据集进行测试，以验证算法的可行性。　　1 聚类概述　　聚类顾名思义是将同一类事物或数据归到同一类型中，同一个类中的对象有很大的相似性，不同类之间的对象有很大的差异性。在机器学习中，要把大量的数据划分为不同的类型通常采用建模的方法。聚类是搜索类的无事先规则与分类的标准的学习过程。与分类不同，聚类是无规则的学习，不依赖预先定义的类或带类标记的实例，由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记[2]。聚类分析是一种探索性的分析，不同分析者对于同一组数据进行聚类分析，所得到的聚类数未必一致。　　2 应用背景　　本文将从电影网站上爬取到的电影类型匹配到所建数据库中。利用数据清洗中的去重，将没有匹配到任何电影类型信息视为无用文本数据将其删除。最后保留电影名称，匹配到的类型，词与词之间用空格分开。然而这样的文本向量是无法在分布式文件系统上进行处理的，因此需要通过TF-IDF加权的方法，将词文本进行转换，得到可处理的数据向量。　　TF-IDF是一种统计方法，即一个词语在在一篇文章中或一个文件集或一个语料库中出现次数越多，同时在所有文档中出现次数越少，越能够代表?文章。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF词频（term frequency）是指某一个给定的词语在该文件中出现的次数[4]。词频公式如图1所示。　　单纯使用TF还不足，需要进行权重的设计即：一个词