面向垂直搜索引擎的主题爬虫方法研究计算机应用技术专业毕业论文.docxVIP

下载本文档

4
0
约7.14万字
约 76页
2019-05-26 发布于上海
举报
版权申诉

面向垂直搜索引擎的主题爬虫方法研究计算机应用技术专业毕业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文摘要中文摘要重庆大学硕重庆大学硕士学位论文 I I PAGE PAGE VI 摘要随着互联网信息的急剧增长，以“广、泛、深”为特点的通用搜索引擎返回的查询结果已经不能够满足不同领域、不同背景的用户查询特定主题信息的需求，因此垂直搜索引擎应运而生。作为垂直搜索引擎的核心组成部分——主题爬虫抓取网页的方法直接影响了垂直搜索引擎的性能。传统的主题爬虫方法多基于特征词集来描述主题，忽视了特征词之间的语义关系，降低了对主题的描述性；网页分块只提取了相关文本块，而没有考虑相关链接块；候选链接优先级预测多数只考虑文字内容评价或链接结构评价中的一种，对于所有候选链接优先级要么设为统一的值，要么分别进行相关性计算，计算量较大；传统的隧道技术会导致主题不相关的网页数急剧增长，影响主题爬虫的准确率。针对以上不足，提出一种基于主题相关概念和综合价值的主题爬虫方法，主要包括： 1) 通过 ODP 的分类树获取主题相关概念集合，然后结合主题描述文档建立主题向量来描述主题，考虑了主题概念的相关概念，增强了主题的描述性。 2) 利用网页分块来过滤噪声，根据不同类型的网页，提取不同的相关块文本来计算主题相关性，很好地解决了由于噪声信息的影响而导致的网页主题相关性计算不准确。 3) 用文字内容和 R-HITS 算法相结合的方法预测候选链接优先级。提取网页分块后的相关链接块，将其中的链接作为候选链接，并将其划分为高相关链接、低相关链接、普通链接三个等级，将高相关链接的优先级赋为最大值，直接丢弃低相关链接，对于普通链接则用网页内容文本、块文本、锚文本以及由 R-HITS 算法计算出的链接结构分数四个要素来预测其优先级。 4) 在隧道技术的基础上，将所有主题不相关的网页 URL 插入不相关 URLs 队列，隧道穿越时如果队列中相同站点的 URL 个数超过上限值，则不再将此站点中 URL 加入到队列，这样缓解了主题不相关网页急剧增加的问题。最后，将准确率和信息量总和作为评价指标，论证了本文提出的主题爬虫方法相对于其它方法的优势。实验结果表明，本文提出的主题爬虫方法有更高的准确率和信息量总和。此方法在垂直搜索引擎的主题网页采集方面有很好的应用前景和较高的实用价值。关键词：主题爬虫，主题相关概念，网页分块，隧道技术，R-HITS 英文摘要英文摘要重庆大学硕重庆大学硕士学位论文 III III PAGE PAGE IV ABSTRACT With the rapid growth of Internet information, the search results of the General search engine, which has the characteristics of broad, generic, deep, could not meet the need of users in different areas to query the specific topic information. Then the vertical search engine arose. As the core of the vertical search engine, the method used by the focused crawler to crawl pages affected its performance directly. The traditional focused crawler described the topic basing on set of feature words, ignored the semantic relationship between feature words, and affected the result of topic description; Without considering the relevant-link block, page segmentation only extracted the relevant-text block; The priority prediction of candidate link only considered text evaluation or link structure evaluation. It set all candidate links priority to the same value or calculate them separately, which had large amount of calculation; The traditional T