基于支持向量机的文本分类算法的研究与实现.docVIP

下载本文档

22
0
约4.39万字
约 52页
2019-02-18 发布于安徽
举报
版权申诉

基于支持向量机的文本分类算法的研究与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

word格式.整理版学号：2009030114 哈尔滨师范大学学士学位论文题目基于支持向量机的文本分类算法研究与实现学生李慧颖指导教师李红宇副教授年级 2009级专业计算机科学与技术系别计算机科学与技术学院计算机科学与信息工程哈尔滨师范大学学士学位论文开题报告论文题目：基于支持向量机的文本分类算法研究与实现学生姓名：李慧颖指导教师：李红宇年级：2009级专业：计算机科学与技术 2013年3月1日课题来源：指导教师指导选题课题研究的目的和意义：随着计算机技术的飞速发展以及Internet的普及与应用，互联网上的电子文档信息急剧增加。如何从大量的信息中快速、准确地检索到所需的信息资料，是人们普遍关心的问题，也是计算机工作者急需解决的问题。面对如此复杂的问题，分类技术在信息检索、信息过滤、数据挖掘等方面起着至关重要的作用。而网上的大部分信息以文本的形式存在，于是文本自动分类技术就成为网上信息检索和信息过滤的关键。另外，文本分类可以应用到垃圾邮件的判定(spam or not spam)，类别｛spam,not-spam｝；新闻出版按照栏目分类，类别｛政治，体育，军事…．｝；词性标注，类别｛名词，动词，形容词…）；词义排歧，类别｛词义１，词义２…．），文本检索，文本过滤以及主题发现与跟踪等。而从Springer全文电子期刊与IEL(IEE,IEEE)数据库中，可以看到最近的期刊与国际会议论文，有大量的关于文本分类的文章，说明随着大量的网上的电子信息，文本分类仍是人们研究的热点。面对网上的海量信息，传统的做法是对网上信息进行人工分类，并加以组织和整理，为人们提供一种相对有效的信息获取手段。但是，这种传统的人工分类的做法存在着许多弊端：一是耗费大量的人力，物力和精力；二是存在分类结果一致性不高的问题。这就要求我们探索计算机自动进行文本分类的有效方法，使得分类的正确率提高。只有这样才能保证检索的查全率和准确率都得到提高。文本自动分类是人工智能技术和信息检索技术相结合的研究领域，是进行基于内容的自动信息管理的核心技术。文本分类是指根据一些已经分配好类标签（这些类标签预先定义好）的训练文档集合，来对新文档分配类标签，其目的就是对文本集进行合理处理和组织，使得这些文本能够按照类别区分开来。作为知识的组织工具，它为信息检索提供了更高效的搜索策略和更准确的查询结果，其中，高效性在于用户可以首先确定查询的可能类别，以减小需进一步匹配的文本数量：有效性在于相似的文本很可能与相同的查询相关，这样使得检索的查全率和准确率都得到了提高。国内外同类课题研究现状及发展趋势： 1.国外文本自动分类主要经历了四个发展阶段：第一阶段(1958——1964)：研究文本自动分类的可能性；第二阶段(1965——1974)：进入文本自动分类的实验性阶段；第三阶段(1975——1998)：文本自动分类的实用性阶段；第四阶段(1990——至今)：因特网文本自动分类研究阶段。在20世纪80年代术以前，基于知识工程的方法一直在文本分类方法中占主导地位。这种方法是由专业人员手工编写分类规则来表达领域专家所拥有的知识，将文档分到某个给定的类别体系中。这种方法需要有领域专家，还需要知识工程师手工编制大量的推理规则。其最典型的应用是卡内基集团为路透社开发的Construe系统。90年代以来，随着模式识别、机器学习、统计学习、数据挖掘等理论研究的发展，新型机器学习方法的不断涌现，基于机器学习的分类技术开始取代基于知识工程的方法，成为文本分类的主流技术。 2．国内文本自动分类研究起步较晚，始于20世纪80年代初期。1981年侯汉清对计算机在文献分类工作中的应用作了探讨，并介绍了国外在计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况。此后，有越来越多的人借鉴国外的一些研究成果，结合中文的特点进行中文文本自动分类的研究。中科院计算所的李晓黎、史忠植等人应用概念推理网进行文本分类。复旦大学的周水庚等人用了N-gram方法对中文文本进行分类尝试，从文档中提取N-gram属性，然后用ON方法判别文本类别，摆脱了对词典和切词处理的依赖，实现文本分类的领域无关性和时间无关性。刁力力、石纯一等用Boosting来组合决策树（Stllnlps）的方法进行文本分类。卜东波从信息粒度的角度来剖析聚类和分类技术，试图使用信息粒度原理的框架来统一聚类和分类。庞剑峰等应用向量空问模型进行了中文文本分类实验，并同时对文本分类所涉及的关