基于语义分析的网络信息采集算法研究与应用-计算机应用技术专业论文.docxVIP

下载本文档

5
0
约4.86万字
约 53页
2019-03-23 发布于上海
举报
版权申诉

基于语义分析的网络信息采集算法研究与应用-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大连理工大学硕士学位论文摘大连理工大学硕士学位论文摘要近年来，随着Web信息多元化的增长，传统的信息采集系统(Scalable Web Crawler) 已无法保证对信息的及时更新，并且由于其采集信息的主题范围过于广泛，较少考虑采集的信息是否与查询主题相关，满足不了人们对个性化信息检索服务日益增长的需求。主题信息采集系统(Focused Web Crawler)采集信息的内容只限于特定主题或专门领域，在搜索过程中无须对整个Web进行遍历，只需选择与主题页面相关的页面进行访问，基本回避了传统信息采集系统信息指数膨胀的危机，成为近年的研究热点。本文以辽河油田科技部信息管理系统为研究背景。分析了网络蜘蛛的工作原理，按照评价链接价值所采用方法的不同将现有的搜索策略进行了分类，分析、比较了它们的特点和优缺点，并给出了一种基于语义链接分析的信息采集策略。结合该策略，设计了一个面向主题搜索的信息采集模型，并对模型的组织结构及各模块的功能进行了详细阐述。词义消歧是主题语义相关度计算的基础，本文结合两种基于“知网”的词义消歧策略：类别歧义消歧策略、基于语义相关度的消歧策略；给出一种基于“知网”的消歧算法，该算法利用词语义原中所含的四种关系，计算词语之间的相关度和词语与其上下文之间的相关度，进而达到词义消歧的目的。在URL的主题相关性判别过程中，以“知网”为基础引入了词汇的语义计算，从语义和概念层对文本进行主题相关性分析，将基于内容评价的搜索策略和基于Web链接结构的搜索策略相结合，给出了一种改进算法SPageRank(Semantic PageRank)，通过对扩展元数据进行主题相关性判定来选择、预测与主题相关的URL。而对于网页的主题相关性判定，则使用目前较为常用的向量空间模型进行计算。实验结果表明，基于 SPageRank的信息采集系统具有较高的采集效率及精度。关键词：主题信息采集；知网；搜索策略；扩展元数据大连理工大学硕士学位论文Research 大连理工大学硕士学位论文 Research and Application of Web Crawling Algorithm Based on Semantic Analysis Abst ract In recent year，with web information continuing to explode in all directions，traditional sealable web crawler carl’t keep up、vitll the information update in time，meanwhile，for its widely crawling range，less regard whether the gathered information is relevant to the topic or not．can’t“6ll the more and more rigorous and prolific search requirements from different users．Focused web crawler，which collects ireformation in specialized fields，does not need to index the web completely．Just access the web pages that are relevant to the topic，avoid the crisis caused by the inflation of infonnation．become a hotspot in recent year’s researches． This paper takes information management system of Liaohe petroleum technique department as research background．Categorizes web spiders search strategies based on the way they evaluate and predict the links obtained from web．The principle and character of each class of searching strategy is described and the advantages and disadvantages are discussed，present a comprehensive evaluation search strateg