文本数据挖掘在电子商务网站个性化推荐中的应用.docVIP

下载本文档

2
0
约 5页
2017-04-12 发布于北京
举报
版权申诉

文本数据挖掘在电子商务网站个性化推荐中的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本数据挖掘在电子商务网站个性化推荐中的应用.doc

文本数据挖掘在电子商务网站个性化推荐中的应用　　摘要：本文提出了一种基于文本数据挖掘的个性化推荐算法，该算法在电子商务网站应用中，通过对服务器日志进行分析，跟踪单一用户的当前的浏览偏好，并根据当前偏好进行个性化商品信息的推荐，能够很好的解决传统算法中推荐信息滞后的尴尬问题。　　关键词：文本挖掘；个性化推荐；层次聚类　　一、引言　　随着WEB2.0产品形式的进一步多样化，用户的行为可以更广泛的被获取并加以利用，所以使用文本挖掘方法的开始出现在电子商务网站的推荐中。此外，社交产品越来越受互联网用户的青睐，会产生大量的访问日志，再加上大规模数据处理和分析技术的发展，使得使用文本数据挖掘来分析用户个性化偏好变得更加现实。大数据的优势在于它能够及时的对用户行为数据进行高效的分析处理，并且目前相关的专家学者在此方面已经取得了突破性的成功[1]。本文在前人研究的基础之上，尝试结合电子商务网站，使用文本数据挖掘来对个性化推荐进行研究。主要针对用户的交易日志信息进行关键词提取，形成兴趣的关联规则，进一步采用聚类分析，最终给出相应的推荐结果。推荐结果的验证使用时效性、精准率和召回率等指标进行验证[2]。　　二、文本词条获取　　（一）服务器日志挖掘　　所谓在电子商务平台上使用文本数据挖掘是指提取访客的页面访问日志，在其基础上对访问的一系列相关页面的核心主题关键词进行提取，以此来跟踪访客当前的兴趣行为偏好。首先对网站的页面结构进行分析。一般的电子商务网站页面有以下几个模块组成：菜单索引、商品详细展示、购物导航和服务信息说明等，在这些模块中对于跟踪访客行为偏好最有帮助的是商品信息展示，因为目前对词条提取技术只对文本内容进行获取，而这部分包含了商品的详细介绍，并且为了使商品在平台网站内能够更容易被检索出，该部分内容大都经过了迎合爬虫技术的优化[3]，故该部分是被关注的重点。　　其次是要对用户的交易事务进行提取，该部分主要包括数据过滤、用户识别和会话识别。数据过滤主要是清洗掉一些错误数据和一些无关的数据，比如访客的网络资源受限，请求的资源页面失败或者服务器并未将资源成功返回给访客，这些数据的提前清洗有利于减轻后续关联规则和聚类分析时的负荷。用户的识别本文使用目前最为主流的cookie技术用来跟踪单一访客，该技术实现的可行性高，唯一的缺点是用户有可能会关闭浏览器的cookie功能，如果这种情况出现，进而采用SessionID技术，该技术会动态的嵌入到访客访问中一个唯一标识，但他无法记录用户是否重复访问[4]。会话识别是指将用户的单一访问区分开来，目前的开发技术均使用的是单一访问模式，当用户登录后，服务器会自动的获取一个单一会话，并且服务器日志会跟踪记录该会话的活动，若超越30分钟无活动，将自动断开。本文也基于服务器默认的30分钟为期限划分会话。　　（二）特征词条提取　　文本挖掘最核心的第一项任务就是文本特征词条的提取，也就是对访客访问页面中的核心词汇的提取。例如，访客连续访问了一系列页面A1，A2，A3，…，An，通过对n个页面中每一个页面的核心词条的获取，可以掌握用户当前的行为偏好和偏好的时时变化。获取特征词条的第一步涉及到中文的分词技术。中文分词最大的难度在于消除歧义，中文语法中不同的断句会引来歧义。为了解决这一问题。目前中文分词应用最常规的方法是CRFs算法，他是在条件随机域算法CRF的技术上演变过来的[5]。　　该模型算法能够很好的解决目前中文分词中所遇到的相关问，而该问题的解决也为进一步提取特征词条打下了良好的基础。由于词条出现在页面的不同位置，其重要程度具有很大差别，故需要提前划分好相应的位置权重。本文将一个完整的页面分为3个域：标题、内容和meta描述标签，分别对应的权重为0.5，0.3和0.2。进一步获取单一页面的特征词的加权排名，本文选取每个页面中排名的前六的词条来代表当前页面，过少的词条不足以代表整体页面，过多势必会加大算法的执行负荷。　　三、特征词条聚类分析　　经过对特征词条提取后，一个完整的交易事务已经转变为特征词条表示的词条组，多个交易事务放在一起会形成一个相关的矩阵。使用T={t1，t2，t3，…，tn}表示单一页面的特征词，一个完整的交易事务使用Page={p1，p2，p3，…，pm}表示，可以使用pi={tw，twtw，…tw，…tw}表示单一页面对特种词条的权重表示[6]。　　聚类的目的是在相似性的基础之上将目标数据进行分类，把相似性接近的数据凝集在一起。当前的聚类方法有模糊聚类、层次聚类和密度聚类等，本文选择使用层次聚类，它也是目前在文本数据挖掘中使用较为广泛的一种方法[7]。算法描述如下。　　第一步：假设共有类N个，每个类均有且仅有一个对象类成。按顺序