- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于偏好挖掘的P2P搜索策略研究ResearchP2Prchategyed
基于偏好挖掘的P2P搜索策略研究Research on P2P search strategy based on interest mining 兰州大学 信息科学与工程学院 计算机应用研究所 屈志毅 顾雅枫 基于偏好挖掘的P2P搜索策略研究 提纲 研究背景 偏好目录及偏好关联规则挖掘 系统网络模型 基于偏好挖掘的搜索查询 结论 研究背景 对等网络( P2P,peer-to-peer )主要指计算机之间以对等方式形成的网络连接,与传统的C/S模型不同,P2P系统中的资源存储在分散的终端结点上,在终端结点之间直接进行资源的传输,因此如何有效的对资源进行搜索定位成为对等网络中的一个核心问题,它几乎决定了整个对等网络的性能。 研究背景 目前在非结构化P2P环境下使用较多的搜索机制主要有洪泛法、改进的洪泛法和随机漫步法,这些搜索算法都是盲目随机的进行搜索。基于此,本文提出一种新的非结构化搜索策略:在该策略中,对每一节点建立用户偏好目录,并根据节点历史访问情况进行偏好关联规则的挖掘以更新用户偏好目录,利用偏好目录有目的的选择路径,从而有效的定位资源。 偏好目录及偏好关联规则挖掘 用户偏好目录 采用用户偏好目录来存储与该节点具有相似偏好的其它节点地址,在资源查询过程中借助用户偏好目录有目的的定位资源。 偏好目录及偏好关联规则挖掘 偏好关联规则挖掘 各个偏好之间具有一定的相关性,该策略的重点之一就是利用偏好关联规则的挖掘结果来更新用户偏好目录。关联规则的挖掘分两步来完成: 第一步:找出所有频繁项集(frequent intemset); 第二步:由频繁项集产生强关联规则。 系统网络模型 当节点A发出搜索请求时,查询偏好目录得知节点B、D具有相似偏好,则A直接将查询请求转发至B、D,接收到查询请求的节点在本地查找资源,若命中资源则直接返回信息,若没有命中则继续通过查找偏好目录进行查询请求转发,直至命中资源或TTL为0。 基于偏好挖掘的搜索查询 用户偏好的表示 采用向量空间模型(vector space model,VSM)对用户偏好进行表示,将描述用户偏好的多个特征词以向量的形式表示,向量中的每个分量对应偏好的不同特征。 偏好i可以用向量表示成V(i)=(c1,w1(i);…;cj,wj(i);…;cn,wn(i)) 利用TFIDF(Term Frequency Inverse Document Frequency)技术计算偏好i中词c的权值wj(i): dwic=tfic*(log2(c)-log2(dfc+1)) 基于偏好挖掘的搜索查询 偏好相似度计算 节点a的第i个偏好特征cai与节点b的第j个偏好特征cbj的相似度可用VSM空间向量检索模型的余弦距离法来算: 基于偏好挖掘的搜索查询 偏好目录的建立 用户偏好目录的建立依赖于偏好相似度的计算,当某一节点加入网络时,将自己的兴趣特征向量发送到邻居节点,邻居节点接收后与自己的兴趣特征向量按偏好相似度计算公式进行相似度计算,若相似,两个节点分别添加对方偏好、权值及IP至本地用户偏好目录。 基于偏好挖掘的搜索查询 偏好目录的更新 用户偏好不是一成不变的,需要对偏好目录进行更新。对用户偏好目录的动态学习更新主要依赖于以下几点: 各节点可通过收集返回成功结果的节点充实自己的偏好目录; 用户经常查询及用于共享的东西也正是该用户的偏好所在; 若两个节点间的偏好相似度大于一定的阈值T,便可将对方偏好、权值及IP分别添加至本地偏好目录; 利用用户偏好关联规则挖掘算法定期对偏好目录中的偏好进行关联规则挖掘。 基于偏好挖掘的搜索查询 用户偏好关联规则挖掘算法 本文以偏好目录中收集的某个节点在一定时间内的多个偏好做为一个事务,每个节点的一个偏好作为一个项目,应用一种改进的Apriori算法对偏好目录中的偏好定期进行关联规则挖掘。 基于偏好挖掘的搜索查询 资源搜索策略 初始节点S发布资源搜索请求; 检索本地是否有该资源,如果搜索成功,得到S的搜索结果,搜索结束;否则,将查询请求与每个偏好向量进行相似度计算,找出与查询请求最相似的偏好,转(3); 查询偏好目录,若可找到具有相似偏好的节点,则直接发送查询请求,转(4);否则转(5); 收到查询请求的节点进行(2)-(3)类似的操作,依次转发查询请求,直至TTL(Time To Live)为0,搜索结束。 节点通过泛洪搜索资源,得到S的搜索结果,搜索结束。 系统性能分析 查全率分析 平均逻
文档评论(0)