文本分类研究综述.docVIP

下载本文档

78
0
约2.87万字
约 15页
2017-09-19 发布于安徽
举报
版权申诉

文本分类研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于机器学习的文本分类研究综述? 题目张博锋1+, 苏金树2, 徐昕3 作者 1(单位全名部门(系)全名,省市(或直辖市) 邮政编码) 单位 2(单位全名部门(系)全名,省市(或直辖市) 邮政编码) 3(单位全名部门(系)全名,省市(或直辖市) 邮政编码) Title Title NAME Name-Name1+, NAME Name2, NAME Name-Name3 Name 1(Department of ****, University, City ZipCode, China) Depart.Correspond 2(Department of ****, University, City ZipCode, China) 3(Department of ****, University, City ZipCode, China) + Corresponding author: Phn: +86-**-****-****, Fax: +86-**-****-****, E-mail: ****, http://**** Received 2004-00-00; Accepted 2004-00-00 Date Name NN, Name N, Name NN. Title. Journal of Software, 2004,15(1):0000~0000. Information /1000-9825/16/0000.htm Abstract: *Abstract.* Abstract Key words: *key word; key word* Key words 摘要: *摘要内容.* 摘要关键词: *关键词;关键词* 关键词中图法分类号: ****　　　文献标识码: A 分类号近十几年来，分布于互联网，电子图书馆和新闻机构等信息源的电子化文本资源数量疾速增长，为有效过滤及这些资源,基于内容的文档管理逐渐成为信息系统领域占主导地位的一类技术,统称为信息（information retrievalIR）.文本分类（text categorizationTC）是IR技术的重要组成部分，它的主要任务是在预先给定的类别集合下根据自然语言文本的内容判定文本的类别,即为文本指派一些预先定义好的类别标记.文本分类如基于主题的文本索引,词的歧义消除,互联网(或其它) 信息的过滤,web资源的分级目录管理选择性及自适应的文档分发[1-9];Liao等人还将文本分类用于入侵检测[10, 11]. 在20世纪80年代以前文本分类使用的主要是知识工程Knowledge Engineering, KE)方法即需要领域专家手工定义一些在特定分类体系下归类文本的专家知识库并进行编码,分类器通过这些知识库中的规则进行分类,最著名的系统如CONSTRE[12]. 知识工程主要缺点是知识获取的瓶颈,即知识需要特定领域的专家手工定义,而且随着类别和领域的变化,都需要专家参与定制知识.90年代后,机器学习(ML)方法为越来越多的人所使用并逐渐成为这一领域的主导方ML方法建立分类器所需要的知识或规则是通过归纳过程自动建立在移植到其他领域时,分类器本身的建立不再需要领域专家的干涉,并且分类性能与KE方法相当本文主要了文本分类问题[3]中基本一致. 文本分类定义文本分类的主要任务是为给定的二元组指派一个布尔值，其中是全体文本的集合,是预先定义的已知类别集合.如果认为文本在分类中,则的赋值为T否则赋值为.即通过建立函数来估计未知的目标函数定义了每一个文本的实际分类,使得和能够尽量一致称为分类器, 和的一致程度,称为分类器的性能,将在5节中讨论.上述分类器对每一个一个T或F的判别hard)分类(HTC). 对每一个,定义类别函数,dj)给出了dj与dj)的取值根据不同的学习方法而有不同的意义,例如在Na?ve Bayes方法中,定义为概率;而在Rocchio方法中,定义为两个向量的作为可能性的证据.出每个类别dj),要么根据指示值的一个从大到小的,而不,称这种情况称为为了得到的值,定阈值τ,这样dj)≥τi解释为而dj)τi解释为需要指出的是在本文讨论的文本分类问题中:(1)文本的类别只是一个用于标注文本的符号,不含任何额外的知识;(2)文本的分类只能依靠从文本本身抽取的知识来完成,不存在其它诸如文本类型,出版地等类似于元数据的外部知识单多文本可能属于多个分类,即给定一个自然数≤|C|,正好（或≤k,或≥k）个C中的元素每个,上述情况称为多标注(multi-label)问题;而每个只能属于一个分类的情况称为单标注(single-label)问题.单标记问题的一个特殊形式是二值(binary)标注问题,,C可以记为,则对