- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
预取方法分析 刘丹 关键字流行度定义一 设在时间段T内共查询了n个关键字Key1—Keyn, 关键字Keyi流行度pi的定义: pi=count/tcur-tpre; 其中 count:关键字Wi的查询次数 tpre:最后一次查询时间 tcur:当前时间 最后对得到的关键字流行度向量P=(p1,p2,p3,...,pn)进行归一化处理,使pi归一化到0-1之间。 关键字流行度定义二 通过倒排索引确定数据对象流行度 在左图所描述的倒排列表中, 关键词列表设为 Key=(1996,birch,jeff,jie,raghu, ramakrishnan,sigmod,tian,wisc, yahoo,zhang), 假设计算出来的流行度向量为 P=(0.0,0.4,0.6,0.1,0.3,0.2,0.5,0.1,0.7,0.3,0.0), 数据对象a1的流行度计算: a1对应的索引关键词向量L1=(1,1,0,0,1,1,1,1,1,1,1), a1的流行度为, Pa1=P·L1=1×0.0+1×0.4+1×0.3+1×0.2+1×0.5+1×0.1+1×0.7+1×0.3+1×0.0=2.5。 利用倒排索引聚类 利用关键词向量来表示对象: a:(1,0,1,1,0,0,1,1,1) b: (0,0,1,0,0,1,0,1,1) c: (1,1,0,0,1,0,1,0,1) d: (0,0,1,1,1,1,1,0,1) 对象之间相似度计算: sim(a,b)= 聚类: K-means; K-medoids; 改进的关联规则预取方法 基于神经网络的预取方法 XU Cheng-Zhong 等人引入神经网络实现基于语义的网页预 取.通过抽取网页超链描述文字信息中的关键词作为神经网络 的输入,神经网络输出结果作为预取依据.用户浏览路径途径的 页面作为训练样本反馈给神经网络进行学习.由于关键词的多 义性会影响预取的准确性,模型对预取网页的范围采取分类处 理,不同类别构造不同的预取器.虽然这在一定程度上提高了模 型的预取准确性,但却限制了模型的实用性. 基于神经网络的预取方法 基于聚类的预取方法 聚类过程: 根据用户的ip地址或域进行分组,由每个组的用户历史访问记录生成图G(u,v); 基于聚类的预取方法 聚类过程: 2. 根据支持度和置信度阈值对图G(u,v)进行裁剪,支持度就是图边上的权重freq(ui,uj),置信度定义freq(ui,uj)/freq(ui), 例如,freq(u2,u4)=3,freq(u2)=4,freq(u2,u4)/freq(u2)=0.75;支持度或置信度小于阈值的边将会被裁减掉. 基于聚类的预取方法 聚类过程: 3. 从一个源结点开始广度优先遍历(BFS)图,使得到的子图中的结点都是可达的(子图是连通的),然后选择一个没有遍历过的结点作为源结点,重新遍历。每个连通子图中的结点数据为一个簇.一个用户分组可能有很多个簇. 基于聚类的预取方法 预取过程: 一个用户发出访问请求; 根据用户的ip地址,确定用户所在的组; 查找用户当前要访问的对象是否在组的其中一个簇中; 如果存在就取出所在簇中的所有数据对象放在代理缓存中; 向用户返回当前要访问的对象; 基于聚类的预取方法 改进: Bi 是所有指向结点j的边的起始点; pop(Pi)为当前数据结点Pi的流行度; Pi为结点ui的访问可能性(概率); 从当前访问结点出发遍历子图,只预取访问概率大于 一定阈值的数据; 改进的关联规则预取方法 如果用户当前访问了数据对 象1,根据传统的关联规则预 取方法,在左边这个表中,预 取关联规则左边是数据1且置 信度最大是1—2,所以预取 的对象就是数据2。 改进的关联规则预取方法 但如果考虑了数据当前的流行度 ,假设数据对象1-5的流行度分别 为 0.1,0.4,0.8,0.3,0.7,若当 前访问对象为1,起始数据对象 为1的关联规则有两个,1—2和 1—3,置信度分别为0.3和0.2, 那么数据对象2的访问可能性为 0.12(0.3×0.4),数据对象3的访问 可能性为0.16(0.2×0.8),数据对象 3的访问可能性大,因此预取数 据对象3到缓存中,而不是数据 对象2。 倒排索引-聚类-关联规则-流行度 a b c d k1 1 0 1 0 k2 0 0 1 0 k3 1 1 0 1 k4 1 0 0 1 k5 0 0 1 1 k6 0 1 0 1 k7 1
您可能关注的文档
- 《机坪管理移交安全评估》.ppt
- 《机坪管理移交安全评估项目启动汇报》.ppt
- 《扩展课程:活出全新的自己》培训课件.pptx
- 《那些年这些年》.pptx
- 《人际关系学》第二讲 人际关系思想发展史.pptx
- 《人际关系学》第三讲 建立成功人际关系的起点.pptx
- 《人际关系学》第一讲 课程导论.pptx
- 《人际关系学》第一讲:课程导论.docx
- 《社会学》2015-2016-2期末考试题库答案.docx
- 《社会学》2016年期末复习资料.docx
- 0-基于尺度转换机制的多尺度聚类挖掘算法 - (摘要-引言-定义-算法部分).docx
- 0-基于尺度转换机制的多尺度聚类挖掘算法 - Org.docx
- 1毕业设计(创作)基本规范.doc
- 2毕业设计(创作)报告模板.doc
- 3毕业论文过程管理资料.doc
- 3毕业设计(创作)过程管理资料.doc
- 04-新PIS数据库结构说明书.doc
- 05-oracle_存储过程的基本语法.doc
- Bitumen emulsions modified by Styrene-Isoprene-Styrene triblock copolymer latex: morphology and engineering properties.docx
- RAFT乳液聚合制备阳离子型聚(苯乙烯-b-异戊二烯-b-苯乙烯)胶乳及其在改性乳化沥青中的应用.docx
文档评论(0)