- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种规则和贝叶斯方法相结合的文本自动分类策略
刘静,尹存燕,陈家骏
(南京大学计算机软件新技术国家重点实验室
南京大学计算机科学与技术系,南京 210093)
摘要:文本自动分类技术是信息处理领域的重要研究方向,本文中在介绍文本分类应用以及
其关键技术的同时,讨论了几种文本分类方法,并且在对这些分类方法分析的基础上,提出
了一种规则和统计相结合的文本自动分类策略,该策略通过规则方法来放宽贝叶斯方法所要
求的强独立性假设条件,同时当规则不能满足时,可以通过贝叶斯方法来得到更好的分类结
果。
关键词:文本分类,向量空间,概率模型,规则
中国图书分类号:TP391
An Approach to Automatic Text Categorization based on the
Combination of Rule and Bayesian Methods
Liu Jing, Yin Cun Yan, Chen Jia Jun
(State Key Laboratory for Novel Software Technology
Department of Computer Science Technology, Nanjing 210093)
Abstract: In recent years, Text Categorization has become an important task in information
processing. This Paper introduces Automatic Text Categorization, including its applications and its
critical techniques. Furthermore ,it describes several classification methods which are frequently
used ,and suggests a new classification method based on analysis of these methods.In this new
method, rule is used to loose the strong independent condition required by Bayesian method,and
Bayesian method is used to combine with rule method to get a better classification result.
Key words: Text Categorization ,Vector Space, Probability Model, Rule
1. 引言
近些年来,随着科学技术的迅速发展,特别是因特网的快速发展,电子文本数目迅速增
加。尽管从表面上看来人们可以得到比以往任何时候都多得多的信息,但是如果不对这些文
本进行有效地管理,人们将被这些庞大的信息所淹没,变得不知所措。因此,近年来人们一
直在研究对大量文本资料进行有效管理的方法,由此产生了文本的自动分类技术,它能够对
所获得的资料进行自动分类,帮助人们高效地管理文本资料。
文本分类的应用领域很广,其中包括对新闻出版按照栏目进行分类,可分为政治、体育、
军事等不同的主题;对于垃圾邮件的判定,类别为垃圾邮件和非垃圾邮件。同时,文本分类
技术还可以应用于自然语言处理或者信息处理领域的系统中,通过使用分类技术提高了系统
中某些方面的性能。例如,在分词系统中,需要进行词性标注,可以认为它是一个分类问题,
类别为名词、动词、形容词等;在信息过滤中,也可以应用分类方法,可以认为其分为两类:
用户感兴趣的文档和用户不感兴趣的文档。通过使用分类技术,使得这些系统中某些难题可
以有与以往不同的解决方案。
从技术上讲,文本自动分类就是在指定的主题类别下,自动确定新文本的所属类别。这
1
个设想在六十年代就被提出,但在九十年代以前,采用的方法一般都是基于规则的
您可能关注的文档
最近下载
- 医院培训课件:《脑出血患者护理》.pptx
- 农业产业园项目农业废弃物资源化利用可行性研究及效益评估报告.docx
- 企业人力资源管理中的AI技术应用案例分析.docx VIP
- 2023年北京北方车辆集团有限公司人员招聘考试参考题库及答案解析.docx VIP
- 劳动法劳动法PPT.pptx VIP
- 抗战胜利阅兵之爱国主义主题班会课件-纪念伟大的民族胜利、传承不屈的民族精神.ppt VIP
- 2025年高考文科政治试题(全国卷新疆、山西适用)学生版+解析版.pdf VIP
- 七年级英语时态专项练习题带答案.docx VIP
- 2025山东省节能与双碳促进中心招聘8人笔试备考题库及答案解析.docx VIP
- 部编本语文五年级上册全册各单元教材解读-精品课件PPT.pptx VIP
文档评论(0)