聚类挖掘在电子商务中应用.docVIP

下载本文档

2
0
约3.84千字
约 9页
2018-06-01 发布于福建
举报
版权申诉

聚类挖掘在电子商务中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类挖掘在电子商务中应用

聚类挖掘在电子商务中应用　　[摘要] 阐述了在电子商务系统中的研究和应用中，利用基于关联规则的多层次、超图分割聚类方法，对Web网页和用户进行有效聚类。该方法借助网站层次图，可以根据实际需要，在各个层次上进行聚类分析，仅将高度相关的网页和用户聚在同一类，而将关联性较小的网页排除在聚类外。　　[关键词] 聚类挖掘电子商务关联规则超图　　　　由于Web具有方便、易用、高效的特点，电子商务显示出越来越强大的生命力，同时各种商业Web站点也面临越来越激烈的竞争。　　有效聚类Web用户和网页对改进网站质量、完善电子商务中产品销售策略具有十分重要的意义。在电子商务中，浏览模式相似的用户具有相似的购买习惯，通过聚类挖掘，将这些用户聚集在同一类，可以制定相似的销售策略。根据浏览模式聚集在同一类中的网页，是大多数用户共同访问的网页，在这些网页之间建立???链接，以方便用户使用。　　现有的基于浏览模式的Web聚类挖掘研究方法中，只要用户请求了一个网页，便认为用户阅读了该网页，事实上有些被请求的网页用户并不关心，不会认真阅读的。通常一个实用网站包含大量的网页，现有的Web聚类方法将每个网页当作一个被聚项，无论用户访问的频繁与否，总是归入一个类中，结果造成有些类中的网页之间几乎没有相关性。　　鉴于以上考虑，本文提出了基于关联规则和超图分割的聚类Web网页及用户的方法，不仅考虑了用户浏览网页的时间长短，还考虑了聚类层次（级别），将不相关网页项排除在聚类之外，使每个类中的网页具有较高的相关性。采用这种方法，可以优化Web站点拓扑结构，指导企业调整营销策略，给客户提供动态的个性化的高效率服务。　　　　一、建立电子商务网站的层次模型　　　　建立电子商务网站的层次模型出于三点考虑。第一，网站中网页内容组织呈现树状结构。第二，在进行关联规则挖掘过程中，可能最下一级挖掘不出达到指定Support的强规则，但是能从上级层次挖掘出达到指定Support的强规则，或根据实际需要在某一个层次进行聚类分析。第三，对于电子商务网站，有些用户虽然访问了某网页，但是对其内容并不感兴趣，可能只是扫一眼就放弃。在此情况下，不应该认为用户认真阅读了该网页，所以应该记录网页的长度，通过计算用户的浏览时间和网页长度的比值来判断用户是否真正认真阅读了该页内容。　　层次模型采用树状结构来描述，节点的数据域包含对应网页的层次名称（编号）和网页长度。树根应该取所研究的网站根目录（研究整个网站）或所研究的网站分支的最上层目录。在建立层次模型时，应根据网站的具体情况决定采用的方法。通常情况下，网页文件名能完全反映网页所在的层次，可以采用完全自动方法进行转换。　　　　二、基于关联规则的聚类挖掘　　　　1.预处理　　在Web站点中，服务器日志文件记录用户的访问方式、所访问的页面、访问时间、用户IP地址等信息，通过收集Web日志所记录的用户浏览信息可以对网页和用户聚类。首先要对收集到的数据进行预处理，获得每个用户所访问的网页序列。将一个用户对某个特定网站的一次连续浏览（从登录该网站一直到离开该网站）所访问的网页序列称为一个用户浏览事务。如果用户中途访问了另一网站，而后又返回该网站，返回后所浏览的网页序列将组成另一个用户浏览事务。处理后的事务序列将具有如下的形式：　　u_id（用户标志编号），p_id(页面编号)序列　　2.挖掘关联规则并计算关联规则可信度的平均值　　对经过预处理的浏览事务进行关联规则挖掘，挖掘出满足一定支持度的关联规则。关联规则是在挖掘出频繁网页集的基础上发现的，由于频繁网页集是大多数用户在一个事务，即一次网站访问中所共同浏览的页面，所以频繁网页集反映了这些网页或共同访问这些网页的用户之间存在一定的联系，如网页内容高度相关。在进行聚类时，应该首先考虑将频繁网页集中的网页聚合在一个类中。　　通常挖掘频繁网页集的方法是在给定某一支持度的基础上进行的，满足该给定支持度的一个频繁网页集中的网页可能是另一个或另几个频繁网页集中的元素，那么将这些网页应该聚合到前一项目集还是后面的某一项目集？正确的选择应该是看这些网页和哪一项目集联系更为密切，可采用的方案有两种：提高支持度继续挖掘频繁网页集直到每一网页仅处于一个项目集或利用各频繁网页集中网页之间关联规则的可信度。进一步仔细分析，前一方案不可取，首先可能不存在一个支持度使每个网页仅位于一个频繁网页集中；其次即使存在这样一个支持度，再进行多次的频繁网页集挖掘代价也太高，实际中是不可行的。　　相比之下，后一方案可行度高，在挖掘出满足指定支持度的频繁网页集的基础上，可以较为方便地计算出每一个频繁网页集中的每个关联规则的可信度。可信度的大小也反映了网页之间关联的密切程