中文文本分类中的若干问题研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
学校代码: 学号: 分 类 号: 密级: 海南大学 硕 士 学 位 论 文 题 目: 文本分类中的若干问题研究 作 者: 邓小波 指导教师: 康耀红 教授 专 业: 通信与信息系统 时 间: 二○○捌年六月 Studies on Some Essential Problems in Automatic Text Categorization A Thesis Submitted in Partial Fulfillment of the Requirement For the Master’s Degree in Engineering By Deng Xiao Bo Postgraduate Program College of Information Science Technology HaiNan University Supervisor: KANG Yao Hong Academic Title: Professor Signature ___________ Approved 海南大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明: 所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。 论文作者签名:     日期: 年 月 日 学位论文版权使用授权说明 本人完全了解海南大学关于收集、保存、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权海南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本人在导师指导下完成的论文成果,知识产权归属海南大学。 保密论文在解密后遵守此规定。 论文作者签名:      导师签名: 日期: 年 月 日      日期: 年 月 日 …………………………………………………………………………………………………… 本人已经认真阅读“CALIS高校学位论文全文数据库发布章程”,同意将本人的学位论文提交“CALIS高校学位论文全文数据库”中全文发布,并可按“章程”中规定享受相关权益。同意论文提交后滞后:□半年;□一年;□二年发布。 论文作者签名:      导师签名: 日期: 年 月 日      日期: 年 月 日 摘 要 文本自动分类是在给定的类别体系下,让计算机根据文本的内容确定与其相对应的类别,其是一种有效的信息处理技术。本文对文本自动分类中的若干问题进行了研究,并实现了一文本自动分类系统,具体内容如下。 文本自动分类是在给定的类别体系下进行,类别是其核心概念。针对此,本文系统研究了与类别相关的若干问题,包括:类别、类、类别与类的关系、类别之间的关系、类集合、类集合与训练集。在此基础上提出分类器的错误敏感性,从用户对系统的信任度角度给出合理解释。基于这些概念,分析常见分类器,得到分类器的重要点结论。结合重要点,基于类中心算法,分析“推拉策略”,并给出修正的“推拉策略” 。 特征选择是文本自动分类的关键环节,对分类效果影响很大。常见特征选择方法都是基于“贪心策略”,其对每个词单独评价。针对此,先分析了各种特征词权值计算公式,归纳权值计算框架。在此基础上,提出两种全局优化特征选择模型:模型一以最大化类中心为目标,模型二以最大化类中心方差为目标。文章分析并推导出两种模型的简单算法。 最后结合文章论述,构建文本自动分类系统。以有效性为目标,基于两个语料库对特征选择算法和修正“推拉策略”类中心算法进行相关实验。对比了各种特征选择算法的有效性,基

文档评论(0)

文档分享 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档