基于html标记的主题爬行器的设计与实现-软件工程专业论文.docxVIP

下载本文档

0
0
约5.01万字
约 77页
2018-05-10 发布于上海
举报
版权申诉

基于html标记的主题爬行器的设计与实现-软件工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于html标记的主题爬行器的设计与实现-软件工程专业论文

独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名：日期：年月日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名：导师签名：日期：年月日摘要爬行器是搜索引擎中重要的组成部分，也是搜索引擎中最为重要的技术之一。爬行器是一个可以从因特网上自动提取网页的系统，它为搜索引擎从互联网上下载网页。通用搜索引擎的爬行器一般是从几个种子URL 链接开始进行全盘爬行，而主题搜索引擎的爬行器除了通用爬行器的基本功能外，还能够对链接以及页面内容进行识别，主题爬行器并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，过滤与主题无关的网页，并将获取的网页存入数据库，提供给用户查询。主题爬行器已经成为搜索引擎技术领域的一个研究热点，对于专业领域的搜索产生重要的作用。本文首先介绍了主题爬行器的相关技术，接着介绍了通用爬行器和主题爬行器基本原理和工作流程，并分析了通用爬行器与主题爬行器之间的区别，然后介绍爬行器的页面搜索策略和页面分析算法。对于页面主题相关性的判定，首先介绍了传统的基于文本的判定的相关算法，并说明了传统的基于文本算法的不足，并提出了一种“基于HTML 标记”的主题相关性判定的方法，根据HTML 的标记结构的不同，分别赋予出现在不同类型标记的文本以不同的权重，这样可以确保主题分类的准确性。在实际应用中可以根据不同的情况具体改变HTML 标记权重，使之能够达到更好的效果。对于主题爬行器的设计，本文先分析了系统总体设计，然后具体介绍了主题爬行器的系统设计及其实现，首先分析了系统的总体工作流程和各个子模块的划分，然后分别介绍了各个子模块的具体的设计和实现，并分析了在设计各个模块时所存在相对重要的技术问题。在实现的过程中力求模块之间的低耦合并提高主题爬行器的执行效率，并使用“基于HTML标记”的方法提高主题分类的准确和网页的召回率。最后本文针对主题爬行器的爬行的数据进行分析，实验表明该主题爬行器在一定程度上可以提高搜索的准确性。关键词：主题爬行器，搜索引擎，HTML标记，锚文本AbstractCrawlerisanindispensableconstituentandessentialtechniqueforsearchengine. Itisasystemwhichautomaticallyextractsanddownloadswebpagesfrominternetfor thesearchengine.Generalsearchengine’scrawlerusuallycrawlsfromseveralseed URLlinks,whilesubject-basedsearchengine’scrawler,besidesthefunctionsofthe generalsearchengine’scrawler,canalsodistinguishthelinksandthecontentsofthe webpages.Itdoesnotaimtothemaxcoverage,butaimtocatchwebpagesconcerned withparticularsubject,filterirrelevantonesandsavethewebpagescaughtintothe databaseforinquiry.Thesubject-basedcrawlerhasbecomeahotresearchtopicinthe filedofsearchenginetechnologyandexertedprofoundinfluenceonthesearchof professional fields.Thethesisfirstintroducestherelevanttechniquesofthesubject-basedcrawler. Afterthis,thefundamentalprinciplesandworkflowofthegeneralcrawlerandthe subject-basedcrawlerareintroduced,andtheirdiffer