基于Web的主题信息采集系统的设计与实现.docVIP

下载本文档

18
0
约4.9万字
约 61页
2017-09-06 发布于安徽
举报
版权申诉

基于Web的主题信息采集系统的设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

西安电子科技大学学位论文独创性（或创新性）声明秉承学校严谨的学分和优良的科学道德，本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关的法律责任。本人签名：日期西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后，发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。保密的论文在解密后遵守此规定）本学位论文属于保密在本人签名：导师签名：年解密后适用本授权书。日期日期摘要如何从Web上快速准确的检索到用户所需信息成为亟待解决的问题。为应对这一问题，在信息检索领域产生了主题Web挖掘这一研究课题。它的基本思想可以概括为：根据用户定义的某一主题，用主题爬虫遍历网络，收集与主题相关的页面，然后将收集到的页面进行智能的分析，最后以友好的检索方式满足对某一特定主题的检索要求。本文在分析了主题Web挖掘的研究内容和当前研究存在问题的基础上，将重点研究三个问题：一是提出了antiSpam主题爬虫算法，主要是加强主题爬虫反作弊能力，增加了主题爬虫对主题相关度判定的准确率；二是通过反作弊主题爬虫算法，对收集到的页面集进行分析和过滤，为了研究方便，将页面的文本过滤问题转化成了文本分类。针对向量空间模型忽略文本的上下文信息，提出了基于社区发现的特征选择算法；实验结果表明，这种分类方法在查准率、查全率方面是有效的和可行的。三是为了实现对主题信息采集，在前面算法的基础上，给出了基于Web 的主题信息采集系统模型。关键词：主题爬虫向量空间模型社区发现文本分类 Abstract How to search the information user needing quickly and accurately from Web has become a serious problem. To address this issue, in the field of information, topic Web ming has been generated. The basic idea can be summarized as: according to topics user defining, with topic crawler traversing the network, collecting the pages relation to the opic ones, then pages will be collected and intelligently analyzed, finally in a friendly way to meet retrieval requirements of a specific topic. Thesis analyzes the topic of Web mining research content and current research problems based on the study. It will focus on three issues as follows: First, A topic crawler algorithm has been proposed, mainly work is to strengthen the ability of antispam, and an increase of crawler is on the topics to determine the accuracy of correlation; Second, through the topic crawler algorithm improved, the pages collected has been analyzed and filtered. In order to facilitate research, the text filter is transformed into tex