- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于随机森林的购物推荐系统
南宁第二中学
摘要:
随着科学技术的发展,人们的衣、食、住、行无一不与互联M产生或多或少的联 系,这其中的典型案例就是网络购物。而推荐系统便是如今一种热门的运用于网 络购物的技术,是现代互联网领域的重要技术。机器学习屮的随机森林算法是常 用于推荐系统的算法,它的运行也需要有海量的数据作为基础。FI前应用于电子 商务领域的推荐系统大多数都是单纯根据用户的浏览记录和购买记录进行商品 推荐,这样会使得推荐范围较小,对数据的利用不够充分。如果推荐系统将更多 其他的因素考虑进来,比如好友、同学、邻居的浏览和购买记录,便能在上提高 推荐的质量,扩大推荐的范围,吸引用户购买更多的商品,提高商家营业额, 推动网络购物的发展。本文将就FI前电子商务领域的推荐系统存在的问题,分析 推荐系统中所运用的机器学习和随机森林算法,提出优化推荐系统的方法。
关键词:
推荐系统;机器学习;决策树;随机森林;
作者简介:苏昶玥,南宁第二屮学。
近些年来,伴随着互联网的发展,我们所接收的信息量快速增长,信息爆炸带 来了各种各样的问题。而购物推荐系统就是一种解决信息过载问题的有效的热门 的工具,它是通过向用户推荐该用户了解不多的新产品来解决信息过载问题的
[1]。而这些新产品都是与用户的浏览记录相关的,推荐系统从数据库中找到用 户的记录从而推断出用户的需求和兴趣,进行推荐。这使得这些推荐的产品能更 符合用户的个性化需求,增加用户的购买的可能性,达到提高销售量的目的。用 户在电子商务平台上的任何行为都会被记录并载入数据库,有庞大的数据库作 为基础,推荐系统能高效地过滤掉无用信息,获取有价值的信息,不断地产生 新推荐。数据库中冇着海量的数据,推荐系统这些数据的利用率冇待提高。向用 户推荐商品时,不应只是考虑用户个人的历史记录,还可以把用户好友的浏览 和购买记录、用户所在地区的人的购买记录、用户对曾经购买的商品的反馈等其 他信息当作有价值的信息,加入推荐系统的考虑范围,进一步提高推荐的质量, 减少无用的推荐,这样不仅仅能推动销售发展,还能改善用户的体验。
随着信息量的不断增加,人们要处理海量数据,就需要机器学的帮助。推荐系 统的运行也离不开机器学习。机器学习的过程是一个从未知到已知的过程[2]。 机器学习通过获取前人的大量经验,接受大量信息,总结其中的规律,实现应
用。现阶段的推荐系统中,常使用机器学习算法,基于随机森林的推荐系统也是 其中一个重要种类。随机森林算法的运算量很大,运行速度也很快,预测的精准 度也相对更高,是当前运用于推荐系统和机器学习的热门算法。
总之,在目前阶段,基于随机森林的推荐系统都是在互联网领域屮,改善用户 体验,实现商业成功的重要手段,在实践中也获得了一定的程度。
一、机器学习
(一) 为什么需要机器学习
随着科学技术的发展,信息的获取越来越简单,每天都会产生大量的数据有待 处理。据统计,淘宝每天产生的千万笔交易会产生将近20TB的数据[3]。在大数 据时代的数据分析人们要处理的数据量,远远超过了传统数据分析人们所能承 受的数据量。机器学习是使机器像人脑一样能够分析经验总结规律,从而拥有预 测的能力。这也代表着机器学习是建立在海量数据之上的,有分析大量数据的能 力。想要高效地处理海量数据,获得有价值的信息,就必然要使用机器学>J。
在目前的情况下,使用人工工作的成本已经变得非常高。在一些反复性强、规律 性较为突出的行业和领域,可以由机器来代替人工作。这样可以在一定范围内降 低劳动力成本,提高投入产出比。同时,机器的工作效率也会高于人工处理,能 降低劳动生存吋间,进一步降低成本。
对于某些领域的数据处理,由人工操作会较为困难,比如垃圾邮件识别、互联网 诈骗、信用风险预测等领域。在这些领域,机器学习便起到了重要作用。同时,机 器学习与多门学科和多个领域交织在一起,应用非常广泛,能带来高效益。
(二) 什么是机器学习
机器学习是人工智能的一个核心研究领域[4]。1997年Mitchell TM在“Machine Learning 一书中详细解释了信息论中的一些概念,给出了机器学习的经典定 义“计算机利用经验改善系统自身性能的行为” [5]。人能够通过获取和总结经 验来学习知识,获得能力。机器学习就是让机器拥有和人一样的学习能力,通过 输入大量的历史数据,总结规律,建造模型。经过大量数据的训练之后,机器便 能从数据中获取知识,也是掌握了像人一般的学习能力。
(三) 学习形式分类
(1)有监督学习;(2)无监督学习;(3)半监督学习;(4)增强学习。
我们目前所采取的随机森林算法就是有监督学习中的分类算法。
(四)机器学习的过程 机器学习首先是数据的获取,大量的数据是机器学习的前提。数据的获取也是最 简单的一步。面对杂乱无章
原创力文档


文档评论(0)