以主题爬虫视角进行数字资源建设探析.docVIP

下载本文档

0
0
约5.1千字
约 11页
2018-07-06 发布于福建
举报
版权申诉

以主题爬虫视角进行数字资源建设探析.doc

此“经济”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

以主题爬虫视角进行数字资源建设探析

以主题爬虫视角进行数字资源建设探析　　摘要　　作为数字图书馆建设的重要方面之一，数字资源建设可以利用主题爬虫对网络中所蕴含的数字资源进行自动化搜集。主题网络爬虫是主题搜索引擎的重要构成方面，本文以本体指导主题爬虫进行数字资源的建设，实验结果显示：以主题爬虫为基础进行数字资源建设具有一定的实用价值，但性能有待进一步提高。　　【关键词】主题爬虫数字资源本体建设　　【关键词】主题爬虫数字资源本体建设　　数字资源在教育及科研等多个领域均具有举足轻重的作用，图书馆是教学及科研的信息中心，因此，数字资源建设也是数字图书馆建设的重要方面之一。万维网的推广与应用使其成为数字资源的主要来源之一，但是，由于其海量化、异构化、增长快速化、半结构化、动态更新化等特点，导致手动搜索数字资源变得越来越费时、费力，主题爬虫有效解决了这一问题。　　1 主题爬虫的概念与分类　　所谓的“主题爬虫”，指的是利用不同链接及爬取策略，从制定的主题资源入手，对各网页链接进行分析，并对主题相关度进行计算，去除同主题不相关的资源及信息，保存同主题相关度较高的资源，有选择性的爬取网页。理想情况下，好的主题爬虫可以准确分析网页主题相关度，因而运行效率更高、更准，可以快速搜索到用户所需资源。　　根据不同的排序算法，可将主题网络爬虫分为三大类，即经典爬虫、语义爬虫、智能爬虫。其中，经典爬虫主要利用的是网页文本的内容、结构及两者相结合，对URLs 排序优先值进行计算，再进行降序排列；语义爬虫利用的是本体相似度对URLs 排序优先值进行计算，再进行降序排列；智能爬虫利用人工智能计算方式，对URLs排序优先值进行计算，再进行降序排列。　　2 主题爬虫关键技术分析　　2.1 爬行策略　　主题爬虫搜索策略是按有规则的、预先安排好的方式对网页进行搜集，爬虫对网络节点爬行方式是按照一定的次序，有目的性地进行抓取，因而可使爬行方式更科学、目表更明确，且可以对爬行路线进行有效辨别及解析。整体而言，主题爬虫搜索策略包括两种，即宏观策略和微观策略。前者针对的是如何对数据库中的保存页面更新进行宏观分析、描述，爬虫周期性连续工作，由于页面获取数量及数据库资源的有限性，导致爬虫也需要周期性地抓取页面，其每循环一周期，就可对传统数据库信息进行获取和更新，且出去所有相同页面，对页面信息缺乏的予以补充，如此循环往复下，确保页面库所有数据尽可能为最新的信息，提高了系统查询功能的及时性与综合性；后者搜索策略偏重于对爬虫实际网页获取步骤进行研究，包括爬行规则、运行方式等。关键在于对爬虫路径及规则进行预先规定，确保爬虫可以根据预先设定的方式爬取网络节点，以便更好地对爬虫行为进行预测和控制，实现了爬虫效率的有效提升。对于多样化的搜索策略，其主要依赖于所设定的不同的爬行准则，各策略爬虫爬行目标网页并不一致，且爬行路径各不相同，通常结合多重因素的制约，寻找更有针对性的搜索策略。　　2.2 获取网页　　爬取网页是主题爬虫最先需要实现的操作，由于网页存在于网络多服务器上，因此，主题爬虫需要先对网页进行搜集。要想将网页从服务器上进行抓取，必须遵循网络相应的通信规则。应以HTTP超文本传输协议为依据，结合互联网通信原理完成，在网页解析时利用的是HTML语法进行分析，实现了网页的获取。　　2.3 主题相关度　　首先，需要从网页中对信息资源进行提取。在此过程中，主题爬虫系统预处理模块将HTML文本转换为数据流形式，并读入内存中，以所对应内容为依据，执行相应的操作过程，然后对 HTML网页的文本予以准确分析，获取正文文本以及超链接信息，为相关度分析提供了依据。例如，在超链接提取时，网页解析器先根据文件集合获取页面，对页面的类型予以判断，只处理“text/html”类型的页面；依次读取缓存数据流，一旦遇见等标记，将其URL链接记下，并提取为说明文字，用以解释该超链接；将保存的超链接进行格式处理；对URL锚文本进行存储，对网页相关度进行计算；链接提取完毕。　　其次，需要进行中文分词。中文分词指的是将汉字序列进行有效切分，成为单独的词，此过程需要根据所设置规则，将连续性的字序重新结合为新词序列。分词算法主要包括三类，即根据字符串匹配与否进行分词算法、根据机器理解进行分词的算法、以人工统计为依据进行计算的分词算法。虽然分词算法已经十分成熟，但要想利用电脑实现中文分词并非易事，需要对歧义、新词进行识别，可利用3GWS分词系统来进行。　　3 主题爬虫视角下数字资源的建设分析　　鉴于传统以链接分析为基础的方法缺乏必要的语义分析，为此，应充分结合网页链接结构及其语义性，以本体为基础，对URL队列进行排序，以便为主题爬虫的搜索方法及基于主题爬虫基础上的数字资源建设提供指导。　　3.1 本体结构　　本体是指