- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于主题的信息采集及文本分类技术的研究.pdf
基于主题的信息采集及文本分类技术的研究
应钦
北京邮电大学信息工程学院,北京 (100876)
E-mail:yingqinjason@
摘 要:随着Web 上信息的迅速扩展,各项基于Web 的服务也逐渐繁荣起来。传统的信息
采集不能满足人们日益增长的个性化需求,基于主题的 Web 信息采集应运而生。同时文本
分类是其中一项环节。文本分类就是将丰富的文本文档按照它们的内容分成一个或者多个预
先确定的种类,它在众多信息管理任务中显得尤为重要。大量统计分类和机器自学技术已经
被应用于文本分类之中,这其中包括衰退模型,近邻分类,分层树表,贝耶斯分类,支撑向
量机,规则学习运算,相关性反馈,基于投票的分类,和神经网络。
关键词:基于主题的Web 信息采集,文本分类,近邻分类,支撑向量机
1. 引言
随着21世纪的到来,Internet技术已遍布于世界人民的生活之中,而WWW技术 (World
Wide Web )更是凭借其直观和便捷的优势成为了Internet上最重要的信息发布方式和传输方
式。为此,人们发展了以Web搜索引擎为主的检索服务。
然而最近传统的信息采集方式又有了新的挑战,因为在信息采集过程中,为提高系统
的查准率,需要对采集下来的页面进行主题相关性判断,也就是所谓的页面过滤,而页面过
滤的实质就是一个文本主题分类的过程 ,具体实现即通过去除与事先设定好的主题相关性
较小的页面(小于设定的阈值) ,从而达到提高系统的查准率的目的。
2. 基于主题的Web 信息采集基本原理
Web 信息采集(Web Crawling ),主要是指通过Web 页面之间的链接关系,从 Web 上
自动的获取页面信息,并且随着链接不断向所需要的 Web 页面扩展的过程。实现这一过程主
要是由 Web 信息采集器(Web Crawler )来完成的。它主要是指这样一个程序,从一个初始
的URL 集出发,将这些 URL 全部放入到一个有序的待采集队列里。而采集器从这个队列里
按顺序取出 URL,通过 Web 上的协议,获取 URL 所指向的页面,然后从这些已获取的页面
中提取出新的 URL,并将他们继续放入到待采集队列里,然后重复上面的过程,直到采集器
根据自己的策略停止采集。对于大多数采集器来说,到此就算完结,而对于有些采集器而言,
它还要将采集到的页面数据和相关处里结果存储、索引并在此基础上对内容进行语义分析。
而基于主题的 Web 信息采集(Focused Crawling ),它主要是指选择性的搜寻那些与预先定
义好的主题集相关的页面的采集行为[1] 。其结构图如下:
- 1 -
图 1 基于主题的 Web 信息采集技术模型图
3 自动文本分类
20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由
专业人员手工进行分类。人工分类非常费时,效率过低。90 年代以来,众多的统计方法和
机器学习方法应用于自动文本分类。目前英文自动分类已经取得了丰硕的成果,提出了多种
成熟的分类方法,如最近邻分类、贝叶斯分类、决策树方法以及基于支持向量机(SVM )、
向量空间模型(VSM )神经网络等方法,但对于中文文本的自动分类技术研究尚不尽人意。
目前国内中文文本分类研究主要集中在朴素贝叶斯、向量空间模型和支持向量机等技术上。
下面简要介绍一下文本自动分类的过程:首先对文本进行预处理,将文本用模型表示,
[2]
进行特征提取;然后构造并训练分类器;最后用分类器对新文本进行分类 。
文本表示 训练过程
主题
文档评论(0)