《预取方法分析》培训课件.pptVIP

下载本文档

1
0
约2.48千字
约 16页
2017-05-08 发布于浙江
举报
版权申诉

《预取方法分析》培训课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

预取方法分析刘丹关键字流行度定义一设在时间段T内共查询了n个关键字Key1—Keyn，关键字Keyi流行度pi的定义： pi=count/tcur-tpre；其中 count：关键字Wi的查询次数 tpre：最后一次查询时间 tcur：当前时间最后对得到的关键字流行度向量P=(p1,p2,p3,...,pn)进行归一化处理，使pi归一化到0-1之间。关键字流行度定义二通过倒排索引确定数据对象流行度在左图所描述的倒排列表中，关键词列表设为 Key=(1996，birch，jeff，jie，raghu， ramakrishnan，sigmod，tian，wisc， yahoo，zhang)，假设计算出来的流行度向量为 P=(0.0，0.4，0.6，0.1，0.3，0.2，0.5，0.1，0.7，0.3，0.0)，数据对象a1的流行度计算： a1对应的索引关键词向量L1=（1，1，0，0，1，1，1，1，1，1，1）， a1的流行度为， Pa1=P·L1=1×0.0+1×0.4+1×0.3+1×0.2+1×0.5+1×0.1+1×0.7+1×0.3+1×0.0=2.5。利用倒排索引聚类利用关键词向量来表示对象: a：(1,0,1,1,0,0,1,1,1) b: (0,0,1,0,0,1,0,1,1) c: (1,1,0,0,1,0,1,0,1) d: (0,0,1,1,1,1,1,0,1) 对象之间相似度计算： sim(a,b)= 聚类： K-means; K-medoids; 改进的关联规则预取方法基于神经网络的预取方法 XU Cheng-Zhong 等人引入神经网络实现基于语义的网页预取.通过抽取网页超链描述文字信息中的关键词作为神经网络的输入,神经网络输出结果作为预取依据.用户浏览路径途径的页面作为训练样本反馈给神经网络进行学习.由于关键词的多义性会影响预取的准确性,模型对预取网页的范围采取分类处理,不同类别构造不同的预取器.虽然这在一定程度上提高了模型的预取准确性,但却限制了模型的实用性. 基于神经网络的预取方法基于聚类的预取方法聚类过程：根据用户的ip地址或域进行分组，由每个组的用户历史访问记录生成图G(u，v); 基于聚类的预取方法聚类过程： 2. 根据支持度和置信度阈值对图G(u，v)进行裁剪，支持度就是图边上的权重freq(ui,uj)，置信度定义freq(ui,uj)/freq(ui), 例如，freq(u2,u4)=3，freq(u2)=4,freq(u2,u4)/freq(u2)=0.75;支持度或置信度小于阈值的边将会被裁减掉. 基于聚类的预取方法聚类过程： 3. 从一个源结点开始广度优先遍历(BFS)图，使得到的子图中的结点都是可达的(子图是连通的)，然后选择一个没有遍历过的结点作为源结点，重新遍历。每个连通子图中的结点数据为一个簇.一个用户分组可能有很多个簇. 基于聚类的预取方法预取过程：一个用户发出访问请求；根据用户的ip地址，确定用户所在的组；查找用户当前要访问的对象是否在组的其中一个簇中；如果存在就取出所在簇中的所有数据对象放在代理缓存中；向用户返回当前要访问的对象；基于聚类的预取方法改进： Bi 是所有指向结点j的边的起始点； pop(Pi)为当前数据结点Pi的流行度； Pi为结点ui的访问可能性(概率)；从当前访问结点出发遍历子图，只预取访问概率大于一定阈值的数据；改进的关联规则预取方法如果用户当前访问了数据对象1，根据传统的关联规则预取方法,在左边这个表中，预取关联规则左边是数据1且置信度最大是1—2，所以预取的对象就是数据2。改进的关联规则预取方法但如果考虑了数据当前的流行度，假设数据对象1-5的流行度分别为 0.1，0.4，0.8，0.3，0.7，若当前访问对象为1，起始数据对象为1的关联规则有两个，1—2和 1—3，置信度分别为0.3和0.2，那么数据对象2的访问可能性为 0.12(0.3×0.4)，数据对象3的访问可能性为0.16(0.2×0.8)，数据对象 3的访问可能性大，因此预取数据对象3到缓存中，而不是数据对象2。倒排索引-聚类-关联规则-流行度 a b c d k1 1 0 1 0 k2 0 0 1 0 k3 1 1 0 1 k4 1 0 0 1 k5 0 0 1 1 k6 0 1 0 1 k7 1