基于密度的样本裁剪算法的改进及在knn中的应用分析-improvement of density-based sample clipping algorithm and its application in knn.docxVIP

下载本文档

8
0
约3.71万字
约 51页
2018-05-20 发布于上海
举报
版权申诉

基于密度的样本裁剪算法的改进及在knn中的应用分析-improvement of density-based sample clipping algorithm and its application in knn.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于密度的样本裁剪算法的改进及在knn中的应用分析-improvement of density-based sample clipping algorithm and its application in knn

1 绪论1.1 论文的研究背景及选题的意义随着信息科技的发展，特别是自20 世纪90 年代后期以来，Internet技术的迅猛发展，我们的生活已进入了信息爆炸的时代。据1998 年统计，世界上每年出版的期刊就约有156000种，而且还在以每年12000种的速度递增[1]。美国国内每年就有近140万种书刊出版，同时还在以平均每年6万种的速度增加[2]。Internet上的信息增长更是惊人。据1999 年统计，Internet上约有3.5 亿个web页面，每天增加将近100万个。另外，在日常生活中人们经常接触的信息绝大部分都是文本信息。这些信息要么以印刷品的方式存在，要么以电子文档的形式出现。而随着因特网的迅猛发展，电子文档日益成为文本信息存在的主流形式。如何有效的组织和管理这些庞大而且还在不断急剧膨胀的文本信息，并且能够根据用户不同的需求，迅速、准确地从中返回所需信息是当前信息科技领域面临的一大挑战。而文本分类技术，是能够解决信息混乱、帮助用户准确地定位所需信息的关键技术。因此，文本自动分类己成为目前备受关注的关键技术，有着很大的使用价值。它同时也是以下领域的技术基础，有着广泛的应用前景。① 信息过滤随着Internet的飞速发展，网络已成为我们方便快捷地获取信息的重要渠道。但面对如此庞大的海量信息，如何快速的获取用户感兴趣的信息，同时避免带来反面信息成为我们的一大困扰。而信息过滤正是解决这一困扰的关键技术，信息过滤技术本质上就是一个两分类问题，它把信息分为两类：感兴趣的信息和不感兴趣的信息。一方面把用户感兴趣的信息提取出来反馈给用户，另一方面把用户不感兴趣的、反面的信息给过滤掉。② 邮件分类当用户特别是政府部门收到大量邮件时，就需要对邮件进行分类，以确定把邮件分发给指定的人员去处理。例如美国白宫所使用的邮件分类系统能自动地把总统收到的大量的E-mail分到指定的类别当中去，如政治、军事、外交、经济、环保等，从而交给适当的人员对邮件进行回复。③ 文本数据库随着需求的发展，存储、组织和查询文本信息也不再是文本数据库的全部功能，而如何提供多层次的服务已成为文本数据库的重要功能，如文本挖掘。而文本分类技术正是这些功能的重要基础。④ 电子会议和网络论坛电子会议就是所有参会者通过计算机网络参与会议，它是一种新型的会议方式。为了调动参与者的积极性，参会者采用匿名的形式，以便于形成平等、活跃的气氛。然后由文本分类系统对电子会议上产生的大量意见和建议进行分类和组织，以便确定进一步讨论的主题。网络论坛则是网络上进行信息交流的一种重要形式，对于用户发表的大量信息，由文本分类系统进行分类和组织，以便于用户进行查找和浏览。⑤ 数字图书馆数字图书馆已成为图书馆的发展趋势，数字期刊所占的比重也越来越大。在对图书进行分类时，图书管理员不可能对各个学科类别都非常了解，这就造成不能对大量的图书资料进行快速、准确的分类，而文本自动分类技术可以解决这一问题。⑥ 信息推送服务文本分类技术还可以应用到主动的信息推送服务中。在这种模式里，用户是被动的，随着信息的日益增多，信息服务系统可以主动地将最新的信息归类，然后根据用户的需求和兴趣推送给用户。因此，文本分类是一项基本而重要的功能，它能够很好地帮助用户整理、获取信息，可以创造巨大的经济和社会效益。k-最近邻方法[3][4][5] （k-NearestNeighbor, k-NN），作为一种基于统计的简单、有效、非参数的经典分类方法，在文本分类中得到广泛使用，并取得了很好的效果。其基本思想是在训练样本中找到测试样本的k个最近邻，然后根据这k个最近邻的类别来决定测试样本的类别。k-最近邻算法是一种基于需求的或懒惰的学习方法，它在训练阶段只是简单存放所有的训练样本，直到进入分类阶段才建立分类。这样，与测试样本比较的可能近邻数量（即训练样本个数）较大时，会有很大的计算代价。另外，训练文本分布的不均匀也会造成分类准确率的下降。因此，对训练样本集进行裁剪和选择，将对提高KNN算法的分类效率和准确率有重要的意义。1.2 国内外研究现状综述1.2.1 文本分类的研究现状国外文本自动分类的研究较早。美国IBM公司的H.P.Luhn首先于20 世纪50 年代末在这一领域进行了开创性的研究，他第一个提出将词频统计的思想运用到文本分类中。Maron于1961年发表了关于自动分类的第一篇论文[6]，1962年H.Borko等人将因子分析法的思想引入到文本分类中。随后，许多著名的科学家如Sparck、Salton等都在这一领域进行了富有成效的研究[7]。文本分类的方法经历了两大阶段：在80 年代末之前都是基于知识工程的方法，即利用人为设定的规则来进行分类；而90年代以后，文本自动分类引入了统计方法和机器学习的方法[8] ，并取得了丰硕的成果，