- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文网页自动分类研究及分类算法的设计与实现
刘超
北京邮电大学信息处理与智能技术重点实验室,北京 (100876)
E-mail:liuchaorichard@
摘 要:本文回顾了中文网页自动分类的发展过程和研究现状,说明了本文中网页自动分类
是采用文本自动分类的方法;指出了网页分类的难点及突出问题;关于分类算法,本文集成
了向量空间模型架构下分类准确度最好的KNN 算法和分类速度最快的Rocchio 算法,设计
了一种Rocchio-KNN 分类算法,该算法采用Rocchio 方法进行类别过滤,再采用KNN 方法
进行细分。实验表明,这种方法在确保一定分类准确率的基础上,大大地提高了分类效率,
能够满足对大规模样本集进行实时处理的需求;最后介绍了中文网页自动分类的前期工作及
系统构架。
关键词:网页内容提取,文本自动分类,自动分类算法
中图分类号:TP391
1. 引言
目前,因特网上的中文网站数量庞大,增长迅猛,需对这些网站进行分类,以便于更好
更快速的查询信息;尽管也存在如 Google 目录,Yahoo ,搜狐等分类目录式的中文网站分类,
但由于采用人工的方法进行分类,效率低下,更新速度慢,无法完成对目前庞大的中文网站
的大范围覆盖,因此中文网页自动分类技术已经成为组织和管理在线文本数据的关键技术。
就目前的研究来看,虽然网页自动分类的准确率不怎么高,但网页自动分类的研究对基于内
容的信息检索,Web 数据挖掘等应用还是具有深远的意义。
2. 文本自动分类的研究现状
本文所研究的中文网页自动分类,其核心技术为文本自动分类技术,下面介绍一下文本
自动分类技术的发展情况。
文本自动分类起源于上个世纪 50 年代,H.P.Luhn 在这方面作了开创性的研究,提出了
词频统计的思想,60 年代 G.Salton 等人提出的向量空间模型成为后来进行文本表示的主要
方法,70 年代以后,M.E.Stevens 、S.Keenan、L.B.Doyle 等人也在这个领域进行了卓有成效
的研究。自动分类在国外经历了三个发展阶段:第一阶段(1958~1964)主要进行自动分类
的可行性研究,第二阶段(1965~1974)进行自动分类的实验研究,第三阶段(1975~至今)
进入实用化阶段。
在我国,文本自动分类的研究开始于上个世纪 80 年代,由于中文文本词间没有间隔,
需要专门的算法对文本进行分词,所以很多国内学者把中文文本分词作为文本自动分类的研
究重点和研究特色。如 1995 年清华大学电子工程系吴军等人以语料相关系数作为分类依据,
字频、词频及其常用搭配为补充,采用停用词表,进行人工指导的文本分类。1997 年山西
大学计算机系刘开瑛等人研究的利用三维加权算法,分词采用最长匹配算法,类别词加权,
语料中抽词的自动分类等[1] 。
随着Web 信息的迅速增加,面向 Web 的以网页作为语料库的自动分类研究已经成为新
的研究热点。
文本自动分类的方法分为两类:一是基于规则的分类方法;二是基于统计的分类方法。
基于规则的分类方法多应用于某一具体领域,需要该领域的知识和规则库作为支撑。但
是对知识和规则的制定、更新、维护及自我学习等方面存在种种问题,使得应用面比较窄。
-1-
基于统计的方法采用纯粹的数学运算,不苛求复杂的语言学知识和领域知识,同时具有较高
的准确率,因而日益受到人们的重视。
文本自动分类的统计模型主要有向量空间模型、概率模型、线性模型、非线性模型以及
组合模型等。
简单地说,文本分类就是先根据已有的文本找出能描述并区分文本类别的分类器(或规
则、假设、模型) ,然后利用该分类器对新的未分类文本进行分类。分类方法是文本分类的
核心问题,其本质就是对分类器的设计。
目前研究者从不同角度已经提出了很多行之有效的文本分类方法,这些方法大多是基于
机器学习方法的,根据其分类原理的不同分为线性分类器、统计学习分类器、基于实例的分
类器、决策树方法、神经网络方法、支持向量机
文档评论(0)