网络信息内容获取技术概论.ppt

  1. 1、本文档共164页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信 息 内 容 安 全;上节回顾(3);第二章 网络信息内容获取技术 ;本讲提要;;网络信息发布形式;网络信息量;网络信息类型;网络信息类型;网络信息类型;网络信息类型;网络信息类型;网络信息类型;网络通信信息;;一、网络信息内容获取模型;2.1 网络信息内容获取模型;2.1 网络信息内容获取模型;2.1 网络信息内容获取模型;2.1 网络信息内容获取模型;;网络媒体信息获取原理;网上采集算法;;1.全网信息获取;2.定点信息获取;3.基于主题的信息获取和元搜索;国内元搜索引擎;3.基于主题的信息获取和元搜索;网??媒体信息获取的技术难点;网络通信信息获取方案;;网络通信信息获取方案;本讲提要;二、搜索引擎技术;二、搜索引擎技术;二、搜索引擎技术;二、搜索引擎技术;本讲提要;2.2.1 网上采集算法;2.2.1 网上采集算法;2.2.1 网上采集算法;网络媒体信息获取原理;2.2.1 网上采集算法;1.初始URL集合;2.信息获取;2.信息解析;3.信息解析(HTTP/HTML);4.信息判重;从爬虫的角度对互联网进行划分;爬虫URL抓取策略;深度优先遍历策略;宽度优先遍历策略;反向链接数策略;Partial PageRank策略;OPIC策略;大站优先策略;2.2.1 网上采集算法;本讲提要;2.2.2 排级算法;2.2.2 排级算法;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;2.2.2 排级算法:PageRank;PR(PageRank(网页级别)) ;PR(PageRank(网页级别)) ;2.2.2 排级算法:HITS;1. Hub页面与Authority页面 ;1. Hub页面与Authority页面 ;2.2.2 排级算法:HITS;2.2.2 排级算法:HITS;2.2.2 排级算法:HITS;2.2.2 排级算法:HITS 算法;2.2.2 排级算法:HITS 算法;2.2.2 排级算法:HITS 算法;优点: (1)知识范围扩大。 (2)搜索时部分地考虑了页面内容,挖掘结果科学性大大增强 不仅应用在搜索引擎领域,而且被“自然语言处理”以及“社交分析”等很多其它计算机领域借鉴使用,并取得了很好的应用效果 ;存在的问题: (1)计算效率低,实时性差 与查询相关的算法 (2)“主题漂移” (3)易被作弊者操纵结果 ??????? 作弊者可以建立一个很好的Hub页面,再将这个网页链接指向作弊网页,可以提升作弊网页的Authority得分 (4)结构不稳定 ????????在原有的“扩充网页集合”内,如果添加删除个别网页或者改变少数链接关系,则HITS算法的排名结果就会有非常大的改变。 ;HITS算法与PageRank算法比较;HITS算法与PageRank算法比较;HITS算法与PageRank算法比较;HITS算法与PageRank算法比较;网页排名;本讲提要;2.2.3 搜索引擎与垃圾信息关系;2.2.3 搜索引擎与垃圾信息关系;Bernard J. Jansen和Amanda Spink的研究结果显示,大约80%的用户只需要搜索结果前3页。为了让广大的网络用户能够看到自己的页面,网站管理者和网页制作者就想方设法让其站点和页面变得有名,以期用户在进行相关内容查询时,目标网页排在结果集的最前面。为此,搜索引擎优化(Search Engine Optimization)应运而生。;搜索引擎优化(Search Engine Optimization) 搜索引擎优化师(Search Engine Optimizer, SEOer) 利用工具或其他手段,使目标网站符合搜索引擎的搜索规则,从而获得较好的排名;2.2.3 搜索引擎与垃圾信息关系;2.2.3 搜索引擎与垃圾信息关系;如何提高PR;如何提高PR;影响PR的因素;提高PR的方法;提高PR的方法;2.2.3 搜索引擎与垃圾信息关系;本讲提要;2.3.1 数据挖掘技术历程;2.3.1 数据挖掘技术历程;2.3.1 数据挖掘技术历程;本讲提要;2.3.2 Web挖掘技术;2.3.2 Web挖掘技术;2.3.2 Web挖掘技术;2.3.2 Web挖掘技术;本讲提要;2.3.3 Web文本挖掘技术;2.3.3 Web文本挖掘技术;本讲提要;四、信息推荐技术;四、信息推荐技术;;四、信息推荐技术;四、信息推荐技术——应用;本讲提要;2.4.1 信息推荐概念和形式化定义;2.4.1 信息推荐概

文档评论(0)

jinxuetong + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档