终端电子文件自动分类技术研究..doc

下载文档 降价啦

0
0
约7.58千字
约 10页
2017-01-13 发布于重庆
举报
版权申诉
保障服务

终端电子文件自动分类技术研究..doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

终端电子文件自动分类技术研究.

终端电子文件自动分类技术研究 1.1.研究意义随着数字技术的不断发展，导致数据的规模不断增大，数据的研究领域不断深入，出现了海量数据。这些海量数据含有大量的有用的重要的信息，人们开始对数据进行统计分析，提取需要的信息，于是数据分类技术应运而生。数据分类作为数据挖掘的一个分支，是在一组类别已知的数据中发现分类模型，然后将新数据映射到对应分类模型中的一个类别中去，以此来预测新数据的类别。是一种有监督的机器学习方法。从科学研究、商业、医疗卫生、银行、金融等行业都有着广泛的应用。一个我们日常生活中的例子比如：可以根据以往的生活经验，利用日照，温度，适度，风向等指标对今天的气象状况进行分类，得出两个类别：1今天适合出行2今天不适合出行。天文学家利用分类技术从海量的天文观测数据中发现稀有的天现象和天体，如恒星和星系的区分、不同活动星系核的光谱区分、APM星系的形态分类。将分类方法用于医学诊断，可以从大量的临床病例中发现某些疾病的关键特征，从而帮助医生做出更准确的诊断。同时随着计算机和通信技术的发展，互联网的普及使用，各种文本信息发展迅速。给人们提供了大量的信息，但是同时准确而快速的查找信息变得越来越困难。因此如何合理有效地管理和组织海量的文本信息，具有很大的研究意义。近年来，人们更重视对自动文本技术的研究，所谓的自动文本就是在给定的分类下，根据文本的内容或者属性，计算机自动的把大量文本归于所属的类别中。通过分类减轻人们处理信息的工作量。通过对文本进行的自动过滤和归类，把相关的主题的文本组织在一起实现对文本的有序组织，提高检索信息的准确率，但是这些操作的所需的共同技术基础就是文本的自动分类。可以这样认为文本分类的目标就是对文本进行有效地组织，把相同相似相关的文本组织在一起，为信息的检索和管理提供的有效地工具。 1.2研究现状分类算法是随着信息的增长而发展起来的，也就是说分类算法的研究源于信息数据的大量增加。因此分类算法在最近几年取得了很快的发展，但是分类的概念由来已久，早在多年以前人们就已经开始着手研究分类算法。目前，形成了多种分类算法，不同的算法有其形成的背景和条件，其使用范围也不一样，应用的广度也各有不同。已经研究出的比较成熟的分类算法有： (1)贝叶斯网络[12]:1973年，Duda和hart提出朴素贝叶斯分类器，但是由于不现实的条件独立性，在当时并没被看好，仅仅用于对复杂问题分类的比较对象，直到1980年之后人们才渐渐意识到贝叶斯算法的优越性，并且在某些领域的应用表现出很好的性能，由此推动了贝叶斯算法的实际应用； (2)决策树算法[13]：1986年quinlan提出以信息论为基础的ID3 算法，随着问题的出现，随后又出现对ID3改进的 ID 4 、ID 5算法，在九十年代又出现了ID4.5算法等； (3)神经网络 [14] 起源于1940年左右，当时有心理学家mcculloch和数学家pitts提出的，1984年，Hopfiedld提出了神经网络中的经典的BP算法，其中160多年来神经网络经历由萧条时期到复兴时期，就目前而言，神经网络方面的理论已经相当成熟。国内方面，吴凌云[4]于2003年提出了带动量的权值批量累计调节法，王庆海提出了权值修正法； (4)KNN算法[17]：1968由Cover和Hart提出，理论上是一个成熟的方法； (5)粗糙集算法[7]：波兰数学家Z.Pawlak在1982年提出的。粗糙集以等价关系（不可分辨关系）为基础，它将分类理解为等价关系，用于分类问题； (6)模糊集算法； (7)支持向量机算法(Support Vector Machine)法[15]，由Vapnik等人于1995年提出，具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。通过学习算法，SVM可以自动寻找出那些对分类有较好区分能力的支持向量，由此构造出的分类器可以最大化类与类的间隔，因而有较好的适应能力和较高的分准率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果； (8)遗传算法（genetic algorithms GA)[7]是一种借鉴生物界自然遗传机制和自然选择过程的搜索方法。适用于并行处理。在由上个世纪70年代产生到现在的40年里，实现了大量的应用，取得人们高度的关注。遗传算法产生于上个世纪70年代，在80年代迎来了兴盛发展时期，进入90年代遗传算法的应用研究显得非常活跃，不但其应用领域扩大而且利用遗传算法进行优化和规则学习的能力也显著提高；（9）蚁群算法（ACO）[15]由Dorigo等人于1991年在第一届欧洲人工生命会议上提出，是模拟自然界中真实的蚂蚁寻食过程的一种随机搜索算法。蚁群算法的基本流程包括：路径构造和信息素更新。 (10)微粒群算法（