基于支持向量机的文本分类算法的研究与实现.docVIP

基于支持向量机的文本分类算法的研究与实现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
学号:2009030114 哈尔滨师范大学 学士学位论文 题 目 基于支持向量机的文本分类算法研究与实现 学 生 李慧颖 指导教师 李红宇 副教授 年 级 2009级 专 业 计算机科学与技术 系 别 计算机科学与技术 学 院 计算机科学与信息工程 哈 尔 滨 师 范 大 学 学士学位论文开题报告 论文题目:基于支持向量机的文本分类算法研究与实现 学生姓名:李慧颖 指导教师:李红宇 年 级:2009级 专 业:计算机科学与技术 2013年3月1日 课题来源: 指导教师指导选题 课题研究的目的和意义: 随着计算机技术的飞速发展以及Internet的普及与应用,互联网上的电子文档信息急剧增加。如何从大量的信息中快速、准确地检索到所需的信息资料,是人们普遍关心的问题,也是计算机工作者急需解决的问题。面对如此复杂的问题,分类技术在信息检索、信息过滤、数据挖掘等方面起着至关重要的作用。而网上的大部分信息以文本的形式存在,于是文本自动分类技术就成为网上信息检索和信息过滤的关键。另外,文本分类可以应用到垃圾邮件的判定(spam or not spam),类别{spam,not-spam} 国内外同类课题研究现状及发展趋势: 1.国外文本自动分类主要经历了四个发展阶段: 第一阶段(1958——1964):研究文本自动分类的可能性; 第二阶段(1965——1974):进入文本自动分类的实验性阶段; 第三阶段(1975——1998):文本自动分类的实用性阶段; 第四阶段(1990——至今):因特网文本自动分类研究阶段。 在20世纪80年代术以前,基于知识工程的方法一直在文本分类方法中占主导地位。这种方法是由专业人员手工编写分类规则来表达领域专家所拥有的知识,将文档分到某个给定的类别体系中。这种方法需要有领域专家,还需要知识工程师手工编制大量的推理规则。其最典型的应用是卡内基集团为路透社开发的Construe系统。90年代以来,随着模式识别、机器学习、统计学习、数据挖掘等理论研究的发展,新型机器学习方法的不断涌现,基于机器学习的分类技术开始取代基于知识工程的方法,成为文本分类的主流技术。 2.国内文本自动分类研究起步较晚,始于20世纪80年代初期。1981年侯汉清对计算机在文献分类工作中的应用作了探讨,并介绍了国外在计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况。此后,有越来越多的人借鉴国外的一些研究成果,结合中文的特点进行中文文本自动分类的研究。中科院计算所的李晓黎、史忠植等人应用概念推理网进行文本分类。复旦大学的周水庚等人用了N-gram方法对中文文本进行分类尝试,从文档中提取N-gram属性,然后用ON方法判别文本类别,摆脱了对词典和切词处理的依赖,实现文本分类的领域无关性和时间无关性。刁力力、石纯一等用Boosting来组合决策树(Stllnlps)的方法进行文本分类。卜东波从信息粒度的角度来剖析聚类和分类技术,试图使用信息粒度原理的框架来统一聚类和分类。庞剑峰等应用向量空问模型进行了中文文本分类实验,并同时对文本分类所涉及的关键性技术,例如特征提取,不同机器学习方法等进行了研究和探讨,给出了评估方法和实验结果。之后他又验证了在文本分类系统中应用反馈方法的可行性,给出了结合反馈方法的文本分类算法。 课题研究的主要内容和方法,研究过程中的主要问题和解决办法: 本文在研究文本分类和支持向量机理论的基础上,针对支持向量机在样本数目较多时其训练速度较慢的问题,针对支持向量机在样本维数较高时其训练和分类速度较慢的问题,用哈尔小波变换对训练样本和分类样本向量进行降维处理,降低支持向量机在模型训练和分类测试阶段的运算量,有效提高训练和分类的时间效率。本文在分析实验数据的基础上对上述方法的应用效果做了总结。小波变换是对支持向量机用向量表示的样本进行加工处理。从应用的出发点来看,其目的是为了提高训练和分类的时间效率,小波变换使用的策略则是降低向量的维数:从应用的效果来看,小波变换的效果较好,且都在一定程度上降低了训练和分类时间,能够更好的保证分类的准确率。 课题研究起止时间和进度安排: 1.起止时间: 2年1月——201年5月2.进度安排: 201-12-29——2013-2-28 确定论文题目,查找资料,撰写开题报告根据课题研究的内容,收集资料。 201-3-2 ——2013-3-20 深入探讨该算法中的几个经典问题。 201-3-21——2013-4-10 整理研究内容,并作进一步的修改。 201-4-11——2013-5-4 归纳总结,形成一份完整的课题论文。 201-5-8 交

文档评论(0)

smdh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档