- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Spark和改进TF―IDF算法用户特征分析
基于Spark和改进TF―IDF算法用户特征分析
摘 要:使用朴素贝叶斯分类算法,结合Spark内存计算框架,对用户观看视频及次数信息进行分析,建立用户性别和年龄区间的分类模型;然后利用特征项的权重优化模型,考虑到每个特征项在各个类别中的权重对分类结果的影响,提出了一种基于特征项与类别间相关性的TFC-IDFC权重计算方法,并与传统的TF-IDF权重计算方法进行比较,通过正确率和F1值两个指标,证明考虑到特征项与类别的相关性所提出的TFC-IDFC权重使得分类模型的分类能力更好。
关键词:Spark;用户特征;贝叶斯;分类;TF-IDF
中图分类号:TP391 文献标识码:A
1 引言(Introduction)
随着互联网的快速发展,用户的数量飞速增加,用户属性更加多元化,大数据的应用与创新成为一个重要的关注点。通过用户的网络行为,分析用户的特征,无论在理论研究中还是实际应用中,都是一个热门话题。大数据用户特征分析,整合海量用户数据,将用户标签化,使得计算机能够程序化处理与人相关的信息,通过机器学习算法、模型能够“理解”人。深度分析用户特征,在理论研究上可以更好地挖掘事件关联及预测事件;对于企业而言,无论是搜索引擎、推荐系统、广告投放等各种应用领域,都可以进一步提高获取信息的精准度和效率。
而Spark作为一种基于内存计算的分布式计算框架,正受到越来越多大数据研究者的关注。它提供了一个更快、更通用的数据处理平台,通过将大量数据集计算任务分配到多台计算机上,并且将中间过程的输出结果保存在内存中,不再需要读取和写入HDFS,以提供高效内存计算,因此Spark可以更好的应用于大数据挖掘和机器学习等算法[1-3]。同时Spark引入了弹性分布式数据集(RDD,Resilient Distributed Dataset)。RDD是不可变的、容错的、分布式对象集合,用户可以利用RDD的操作函数并行地操作该集合,以提高计算速度。
目前国内用户特征分析的研究主要是对社交网络、微博评论、日志数据等进行特征分析,少部分人则对视频数据进行分析。张岩峰等人通过用户在微博上的言论、行为和社交圈等公开数据信息,提出了对该用户的个性化维度进行分类分析的方法[4];张宏鑫等人从海量移动终端日志数据中挖掘用户特征,提出了一种基于日志数据的用户特征分析方法[5];李冰利用用户观看新闻类视频数据,并通过用户行为分析和建模处理,挖掘用户在类别、国别、年代、热度值、评分等维度的兴趣偏好[6];冯婷婷通过用户浏览视频的行为,利用支持向量机、逻辑回归等分类器进行性别推理[7]。
国际上,Das S等人通过终端用户的特征标签,提出了基于权重的逻辑回归算法的监督和半监督学习的用户特征分析[8];Kim H L等人提出通过分析用户标签,实现以用户兴趣为中心的聚类[9];Gulsen E等人利用网络日志数据,使用url、DMOZ和文本内容三个特征数据集,预测性别[10]。
目前利用用户观看视频信息分析用户特征的研究成果还比较少。本研究利用用户观看视频及次数信息,基于朴素贝叶斯分类算法[11-15]和Spark内存计算框架,训练用户性别与年龄区间的分类模型,其中年龄区间分为19岁以下、19―30岁、31―40岁、41―50岁和50岁以上,通过计算每个特征项在各个类别中的权重优化模型,提高分类结果的正确率。
4 结论(Conclusion)
本文利用用户观看视频的数据,将朴素贝叶斯分类算法应用到Spark计算框架,训练用户的性别和年龄区间的分类模型、加载模型,对测试样本进行分类,比较分类结果与标注标签,分析模型性能,整个过程耗时大约三分钟。在实验过程中,未考虑特征项权重的分类效果不是很理想;在朴素贝叶斯分类算法中加入传统的TF-IDF权重计算方法,分类效果仅有小幅度提升;其原因是TF-IDF权重考虑的是特征项与整个样本集的相关性,并没有考虑到特征项与类别的相关性,给出的特征项权重并不准确,因此文本提出了一种改进的基于特征项与类别间相关性的TFC-IDFC权重计算方法。该算法的思想是某个特征项在各个类别间出现的越不均匀,则区分类别的能力越强,权重越大,也就意味着每个特征项在各个类别中的权重在很大程度上影响了朴素贝叶斯分类算法的分类能力;另外,通过实验也证明改进的TFC-IDFC权重计算方法,增加对类别重要程度较大的特征项的权重,有利于提高分类模型的质量和分类结果的正确率,分类效果有了明显的提高。
大数据背景下的用户特征分析是当前的研究热点,用户的一切网络行为都是值得挖掘的对象。在最短的时间内,能够对用户更加准确分析是我们的研究目标。采用更多维度、更大量级的数据信息,对用户更多特征的分析将是下一步的研究重点。
文档评论(0)