2014 863课题申请技术趋势_Fudan.docx

下载文档 降价啦

0
0
约4.76千字
约 8页
2019-08-14 发布于湖北
举报
版权申诉
保障服务

2014 863课题申请技术趋势_Fudan.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

PAGE 8 2.1.3 内容采集关键技术国内外发展现状与趋势（复旦提供）随着网络应用的深化和技术的发展，Web正由以搜索引擎为主的单纯检索服务向着信息转播、个人代理、个性化主动服务等领域全方位拓展。作为这些服务系统的重要基础和支撑，Web内容采集(Web Crawler)的任务也越来越艰巨，被广泛应用于搜索引擎检索、站点结构分析、页面有效性分析、Web图进化、内容安全检测、用户兴趣挖掘，以及个性化信息获取等多种服务和研究当中。Web内容采集就是一个通过Web页面间的链接关系，从Web上自动获取页面内容的程序。根据应用习惯的不同，Web内容采集器也常称作Web Spider、Web Robot或Web Worm。基于内容采集的采集目标，内容采集技术可分为以下几种类型: 基于整个Web的内容采集(Scalable Web Crawling) 该采集技术是指从一些种子URL扩充到整个Web的内容采集，主要是用于门户站点搜索引擎和大型的Web服务提供商的内容采集。特别适合搜索意义广泛的专题，几乎每一个检索词都能搜索出一些相关的结果，因此具有很强的实际应用需求。但由于这种内容采集的目标是整个Web，采集范围和数量非常巨大，因此对采集速度和存储空间要求很高，而对采集页面的顺序要求相对较低。同时，由于这种内容采集一般并行的采集器数量较多，所以还要重点解决诸如URL分配、重复URL消除、及全局URL质量计算等关键问题。增量式Web内容采集(Incremental Web Crawling) 传统的Web内容采集一般是周期性采集器(Periodic Web Crawler)，其工作模式是根据实际需要采集足量的信息，然后停止采集；当一段时间后这些信息过时，再重新采集一遍以代替原来采集的信息。而增量式Web内容采集的工作模式是，采集器在需要的时候仅对新产生的或者已经发生变化的页面进行采集，而对于没有变化的页面不再重新进行采集。与周期性内容采集相比，增量式内容采集可以极大地减小数据的采集量，进而极大地减小采集的时空开销。但由于Web内容资源的动态性、异构性和复杂性，如何判断某个页面是否发生变化，使得增量式内容采集算法的复杂性和难度大大增加。同时，如何根据页面的变化快慢分配系统的采集能力，提高增量式内容采集的效率，也是增量式内容采集必须解决的新的难题。面向主题的Web 内容采集(Focused Web Crawling) 面向主题的Web内容主要是指选择性地搜寻那些与预先定义好的主题相关的页面进行的内容采集。主题一般可以是关键词，也可以是样本文件。与基于整个Web的内容采集相比，基于主题的Web内容采集并不采集那些与主题无关的页面，所以可以极大地节省硬件和网络资源，保存的页面由于数量少也能获得较快更新，比较接近Web 当前的真实状况。个性化的Web 内容采集(Customized Web Crawling) 个性化的Web内容采集通过用户兴趣制导或与用户交互等方法手段，采集满足用户不同需求的各类信息。这种个性化信息一般通过两种途径获取，其一是用户利用手工在系统提供的个性化设置页面里设置，这时主要考虑如何全面、简单地提供这种设置，使得用户能够方便地表达他们各自不同的喜好和需求；其二是系统自动获取，系统通过跟踪用户的浏览习惯和兴趣以后，自动解析获取。分布式Web 内容采集(Distributed Web Crawling) 分布式Web内容采集，就是指多个Web内容采集器在某种机制的协调下共同采集整个目标页面的过程，从而达到更快的采集速度以及更高的采集性能。按照内容采集的范围划分，分布式内容采集可以分为两类，即基于局域网的分布式内容采集和基于广域网的分布式内容采集。前者的所有采集器都运行在同一个局域网内，采集器之间通过高速的内连接进行通信和完成采集；而后者的采集器全部分布在整个Internet上，通过网络进行远程通信。由于大多数用户的采集目标并不是整个Web，而是出于个性化信息需求，采集范围要小得多。所以，基于局域网的分布式内容采集在实际中应用更广。同时，基于广域网的内容采集系统的实现要复杂得多，设计和运行成本也更加昂贵。对于分布式内容采集，需要解决如何使各个采集器页面的负载达到均衡、以及如何使每个采集器共享一份完整的分布式服务的两个基本问题。基于Agent 的内容采集(Agent-based Web Crawling) Agent是处在某个环境中的计算机系统，该系统有能力在这个环境中自主行动以实现其设计目标。Agent的这些特性使它具有人类的社会智能，当应用于面向主题的或者个性化的内容采集时，比传统的方法更具方便灵活和适应力强的优势。但由于基于Agent的内容采集是实时到网上去搜索，而不是事先采集好并完成索引后再直接匹配