个性化电子商务系统的中的自适应过滤算法探究.docVIP

下载本文档

0
0
约3.77千字
约 7页
2017-08-19 发布于湖北
举报
版权申诉

个性化电子商务系统的中的自适应过滤算法探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

个性化电子商务系统的中的自适应过滤算法探究

个性化电子商务系统中的自适应过滤算法探究 [摘要]电子商务的飞速发展在方便顾客的同时也带来了一个问题：产品过多致使顾客不能有效选择其所需产品。为满足顾客的个性化电子商务需求，文章提出一个新的基于向量空间模型的自适应过滤算法。该算法首先采用特征向量和伪反馈并借助训练算法来选取初始过滤轮廓和闽值，然后运用用户反馈通过过滤算法对轮廓和阈值进行修正。该算法具备两个优点：一是能够进行自我学习来提高精确度；二是过滤过程无需大量的初始文本。将其用于电子商务并进行测试，测试结果证明它是有效的。　　[关键词]个性化电子商务；自适应过滤算法；闽值优化算法；精确度；特征选择　　　　　　电子商务伴随着互联网飞速发展，同时也为企业和顾客带来了一个新局面：企业发现竞争日益激烈，生存日益艰难；顾客发现产品日益增多，但信息处理负担日益加重，选择自己所需的产品日益困难。因此，亟需新的市场战略，如一对一的销售、客户关系管理等。学术界和实践者已强调了这一紧迫性。而个性化推荐，即为每个客户推荐一个产品清单供其选择，就是实施这些新战略的方案之一。　　目前已经有许多推荐技术，其中协同过滤技术是当前最为成功和广泛使用的个性化推荐技术。它被广泛应用于网页、电影、文章和产品的推荐，作用原理是先识别出具有相似产品需求的顾客群，然后为这一顾客群推荐产品。然而，尽管这些推荐技术业已成功，但仍暴露出一些广为人知的可能导致不良推荐的局限性，如算法的可扩展性、评价数据的稀疏性和初始资源推荐问题。　　鉴于此，笔者提出一个新的基于向量空间模型的自适应过滤算法。该算法改进了传统算法，并将自适应反馈研究机制引入智能控制中，因此具备两个优点：一是能够进行自我学习来提高精确度；二是过滤过程无需大量的初始文本。　　　　一、自适应过滤算法结构　　　　基于向量空间模型的自适应过滤算法分为两步：训练阶段和自适应过滤阶段。　　训练阶段的任务是获取初始过滤轮廓并设置初始阈值。　　自适应过滤阶段的主要任务是对轮廓和阈值进行适应性修改。因主题和文档均由向量空间模型展示，所以每个主题和文档都转化为特征向量。　　　　(一)训练阶段的结构　　　　图1显示的是训练阶段的结构。首先从正文档和伪正文档中提取出特征向量。伪正文档即训练集里的那些具有与正文档非常相似的主题却未能标识成正文档的文档。它们可以由多种方式获得，可以通过伪反馈获得，或者通过种类分级结构获得：一个主题的伪正文档之高级种类与训练集提供的高级种类相同。　　为得到特征向量，首先剔除禁用词，接着对剩余的词进行形态分析，然后根据公式(1)计算词语与主题之间的对数交互信息：　　logMI(wi，Tj)=log(p(wi/Tj/p(wi)) 　　(1) 　　上述公式中，wi是第i个词语，Tj是第j个主题。对数交互信息越高，wi和Tj相关性越高。p(wi/Tj)和p(wi)由最大可能性方法估计出。　　对于每个主题，选取那些对数交互信息高于3.0而且在有关文档中出现不止一次的词语。对数交互信息不仅被用作选择标准，而且被用作特征词的权重。得到正文档和伪正文档的特征向量之后，将其合并到初始轮廓中。初始轮廓是正文档和伪正文档的特征向量之加权和。然后根据训练集里每个文档的相似性为每个主题设置初始阈值。轮廓与训练文档之间的相似性由如下余弦公式(2)计算出：　　pj是第j个主题的轮廓向量，di是第i个文档的向量，dik是di中第k个词语的权重，由下列公式(3)计算得出：　　　　dik=1 log(tfikavdlIdl)　　(3) 　　此公式中，如是第i个文档中第k个词语的条件频率，dl是形态处理和禁用词剔除之后通过文档标志计数得到的文档长度，avdl是从训练集得到的平均文档长度。根据训练文档的相似性设置每一个初始阈值以达到最高过滤性能。　　　　(二)自适应性算法的结构　　自适应过滤是自适应过滤算法的一个非常重要的阶段。我们从训练阶段得到了初始轮廓和阈值。当过滤输入文档时，主题轮廓和阈值则依据各种不同信息，如：用户反馈、输入文档的向量等进行自适应更新。　　　　图2显示了适应性过滤的结构。当一个文档到达时，其与主题的相似性即被计算出。如果该相似性高于当前阈值，则这个文档被找回，用户的相关性判断也由此得出。如果该文档真正与主题相关，则其被认为是正实例，反之则是负实例。正实例和负实例的向量根据公式(4)被用于主题轮廓的修改。　　p#39;j=pi αpj(pos) βpj(neg)　　(4) 　　p#39;j是修改后的主题轮廓，pj修改前的主题轮廓，pj(cos)是更新阶段得到的正实例的向量，pj(neg)是更新阶段得到的负实例的向量；α和β分别是正向量和负向量的权重。(三)阈值优化算法　　笔者提出一个新的阈值优化算法。定义该算法使用