- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6章Web挖掘技术(new)推荐
利用Web访问信息挖掘进行用户移动模式发现 在移动计算环境中,一个新的挖掘方法,即用户的移动模式挖掘被提出。挖掘的结果可以用于开发数据的分配模式以改变移动系统的总的性能。首先,对移动环境中的一些日志数据进行挖掘,可以得到频繁用户移动模式。然后,根据挖掘结果和数据的特性设定个人数据分配模式。 根据不同层次的挖掘结果,有两种个人数据分配模式: 利用集合层次的用户移动模式(DS模式); 利用路径层次的用户移动模式(DP模式)。 图7-2 在一个移动计算系统中移动模式的例子 利用Web访问信息挖掘用户移动模式发现 利用Web访问信息挖掘进行用户移动模式发现可以分为如下三个主要步骤: 数据收集阶段:从各个服务器的日志集合中判断最大的移动序列和移动对的出现次数。 挖掘阶段:从第一步的结果集中的每w个最大移动序列中判断大项移动序列。考虑到新近的移动模式,设立w为一个回顾因子,一个可调整的窗口。 产生模式阶段:根据第二步的得到的大项移动序列,判断用户的移动模式。 利用协作推荐的方法实现实时个性化推荐 基于协作筛方法的Web站点实时个性化系统的结构如图7-3所示。 图7-3 基于协作筛方法的Web站点实时个性化系统 整个处理过程分为两部分: 离线部分:包括数据准备、得到推荐池、建立协作筛。 在线部分:推荐引擎。 Web挖掘的意义 Web挖掘的分类 Web挖掘的含义 Web挖掘的数据来源 Web内容挖掘方法 Web访问信息挖掘方法 Web结构挖掘方法 第七章 Web挖掘技术 内容提要 页面重要性的评价方法 在设计搜索引擎等服务时,对Web页面的链接结构进行挖掘以得出有用的知识是提高检索效率的重要手段。Web页面的链接类似学术上的引用,因此一个重要的页面可能会有很多页面的链接指向它。 定义7-3 设u为一个Web页,Fu为所有u指向的页面的集合,Bu为所有指向u的页面的集合。设Nu= |Fu|为从u发出的链接的个数,c(1)为一个归一化的因子(因此所有页面的总的PageRank为一个常数),那么u页面的PageRank被定义为: 一个页面对应的PageRank值被分配到所有它所指向的页面中;每一个页面求和所有指向它的链接所带来的PageRank以得到它的新的PageRank。在计算时可以从任何一个页面开始,通过上面的公式反复计算直到其收敛。 页面等级 一般地说,页面的页面等级值是通过指向这个页面的数量来计算的,即通过指向向后连接数来计算的。向后连接是指向这个页面的连接减去它指向外面的连接。计算量不是简单地向后连接的数量加合,而是要考虑向后连接的页面的重要性。 给定一个页面p,我们使用Bp作为指向一系列指向P的页面,并且用Fp作为一系列由外部指向P的连接,则 这里的Nq=|Fq|。常量c是一个介于0,1之间的数,用于标准化。 这里有一个循环分级的问题。当计算一个页面的页面等级时,如果发生循环则产生这个错误(页面A指向页面B,页面B同时指向页面A),此时页面等级值随这些页面增加。可以通过另一个公式解决: 其中c是最大值,E(v)是一个矢量来增加一个人工连接。它是模拟一个用户不随着连接访问其他页面,而是随机跳到一个新的页面。E(v)增加一对结点中间可能的连接。 权威页面和中心页面 所谓权威页面是指包含需求信息的最佳资源页面。所谓中心页面是一个包含权威页面连接的页面。 HITS(Hyperlink-Induced Topic Search)是遵照寻找权威页面和中心页面的典型方法。HITS技术由两部分组成: 基于一组给定的关键字,可以找到相关的页面。 权威和中心页面与上述页面有关,返回具有最高权重的页面。 算法7-3 HITS 输入: (把www 看作)一个引导图W;查询请求q;支持s。 输出:权威页面的集合A;中心页面的集合H。 (1)BEGIN (2) R=SE(W, q);//利用q得到页面的根集合R (3) B= R ? {指向R的连接}?{来自R的连接}; (4) G(B, L)= 由B导出的W的子图; (5) G(B, L1)=删除G中相同站点的连接; (6) xp=∑q Yq;// q,p∈L1,得到权威页面的权重; (7) yp=∑q Xq;// q,p ∈L1 ,得到中心页面的权重; (8) A={p|p为具有最高xp值的页面}; (9) H={p|p为具有最高yp值的页面}; (10)END Web访问信息的一些概念(一) W3C国际组织已经为Web访问信息定义了一些基本概念: 定义7-4 用户(Us
文档评论(0)