- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
西安电子科技大学
学位论文独创性(或创新性)声明
秉承学校严谨的学分和优良的科学道德,本人声明所呈交的论文是我个人在
导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标
注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成
果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的
材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说
明并表示了谢意。
申请学位论文与资料若有不实之处,本人承担一切相关的法律责任。
本人签名:
日期
西安电子科技大学
关于论文使用授权的说明
本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生
在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业
离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学
校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部
或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。 保密的论文在
解密后遵守此规定)
本学位论文属于保密在
本人签名:
导师签名:
年解密后适用本授权书。
日期
日期
摘 要
如何从Web上快速准确的检索到用户所需信息成为亟待解决的问题。为应对这
一问题,在信息检索领域产生了主题Web挖掘这一研究课题。它的基本思想可以概
括为:根据用户定义的某一主题,用主题爬虫遍历网络,收集与主题相关的页面,
然后将收集到的页面进行智能的分析,最后以友好的检索方式满足对某一特定主
题的检索要求。
本文在分析了主题Web挖掘的研究内容和当前研究存在问题的基础上,将重点
研究三个问题:一是提出了antiSpam主题爬虫算法,主要是加强主题爬虫反作弊能
力,增加了主题爬虫对主题相关度判定的准确率;二是通过反作弊主题爬虫算法,
对收集到的页面集进行分析和过滤,为了研究方便,将页面的文本过滤问题转化
成了文本分类。针对向量空间模型忽略文本的上下文信息,提出了基于社区发现
的特征选择算法;实验结果表明,这种分类方法在查准率、查全率方面是有效的
和可行的。三是为了实现对主题信息采集,在前面算法的基础上,给出了基于Web
的主题信息采集系统模型。
关键词:主题爬虫
向量空间模型
社区发现
文本分类
Abstract
How to search the information user needing quickly and accurately from Web has
become a serious problem. To address this issue, in the field of information, topic Web
ming has been generated. The basic idea can be summarized as: according to topics
user defining, with topic crawler traversing the network, collecting the pages relation
to the opic ones, then pages will be collected and intelligently analyzed, finally in a
friendly way to meet retrieval requirements of a specific topic.
Thesis analyzes the topic of Web mining research content and current research
problems based on the study. It will focus on three issues as follows: First, A topic
crawler algorithm has been proposed, mainly work is to strengthen the ability of
antispam, and an increase of crawler is on the topics to determine the accuracy of
correlation; Second, through the topic crawler algorithm improved, the pages collected
has been analyzed and filtered. In order to facilitate research, the text filter is
transformed into tex
文档评论(0)