基于K-均值的文本聚类分析.pdfVIP

下载本文档

68
0
约3.59万字
约 28页
2018-11-19 发布于江苏
举报

基于K-均值的文本聚类分析.pdf

第一章绪论 1．1 国内外的研究现状数据挖掘是机器学习领域内广泛研究的知识领域，是将人工智能技术和数据库技术紧密结合，让计算机帮助人们从庞大的数据库中智能地、自动地抽取出有价值的知识模式，以满足人们不同应用的需要。当数据库挖掘的对象完全由文本这种数据类型组成时，这个过程就称为文本数据挖掘¨1。存储信息使用最多的形式是文本，所以文本挖掘具有更高的商业潜力。事实上，最近研究表明信息有80％包含在文本文档中【17】 o 文本分类指按照预先定义的主题类别，为文档集合中确定一个类别。这样用户不但能够方便地浏览文档，而且可以通过限制搜索范围不使文档的查找更容易、快捷，目前用于英文文档分类方法较多，用于中文文本分类的方法较少，主要有朴素贝叶斯分类(Naive Least Model)以及线性最小二乘法LLSF(LinearFit)¨“。 Space Square 由于文本分类可以在较人程度上解决目前文本以及网络上信息杂乱的现象，方便用户准确定位于所需信息和分流信息，闪此，文本自动分类已成为一项较大实用价值的关健技术，是组织和管理数据的有力手段，可被用于抽取符号知识，新闻分发，排序电子邮件以及学习用户兴趣等。由于文本分类可以较大程度上解决目前文本以及网络上信息杂乱的现象，方便用户准确地定位于所需的信息和分流信息。因此，文本自动分类已成为一项具有较大实用价值的关键技术，是组织和管理数据的有力手段，可被用丁．抽取符号知识幢引，新闻分发眙引，排序电子邮件∞副以及学习用户兴趣口引等。分类器的构造方法有多种，主要有统计方法、机器学习方法、神经网络方法等。国外对文档的分类技术的研究已经开展了多年，并在邮件分类、电子会议、信息过滤等方面等到了较为广泛的应用，其中较为统等㈣’。文本分类的目标是在分析文本内容的基础上给文本一个或多个合适的类别。目前已提出了许多统计方法和机器学习方法。基于机器学习方法的英文自动分类已经取得了很好的成绩，提出了多种特征抽取方法和分类器，如同归模型、K一邻近分类、贝叶斯分类、决策树、推导规则、神经网络、支撑向量机、决策委员会、SWAP一1、AdaotiveResonanceAssociative Cohen设计了 Map、Lewis采用了一个线性分类器、LLSF Network 一种建立在权值更新基础上的休眠专家算法、Expert Reuters等标准的分类熟语料和统一的评价方法心8。4¨。国内在中文文本分类领域也进行了大量的研究…‘H驯，但由于语料和评价方法不相同，很难它们做出严格的比较。上述大多数方法均用到了经典的向量模型(VsM)，即将文本表示成向量，作为向量空间的一个点。然后通过计算向量间的距离决定向量类别的归属。该模型的不足之处在于它的一般不考虑向量中各个特征向量问的关系。这使得距离的计算够准确，从而导致分类精度不够高强1。组织词汇信息，可以说，它是一部基于心理语言原理的语义词典。它的名词按层次结构组织，动词按搭配关系组织，而形容词和副词则以Ⅳ维超空间方式组织的。中科院计算所李晓黎、史忠植等人应用概念推理网进行文本分类，最好的结果是对-j-．“Housing”类别，的基础上提出了一超文本协调分类器，正确率接近80％，它特色是适当考虑了文本中的结构化信息，并且将文本分类器和超文本结构信息分类器结合起来，从而达到更好的效果¨引。 Tou 新加坡的HweeNG等人研究了用Perceptronlearning的方法进行文本分类，其准确率达到70％，值得一提的是使用了一种树状的分类结构啪1。香港中文大学的WaiLam等人将K-NN方法和线性分类器结合，取得了较好效果，在召同率接近90％ 72％／62％嵋…。复旦大学和富士通研究开发中心的黄萱箐、吴立德、彳i崎洋之等研究了独立语种的文本分类，并以词汇和类别的互信息量为评分函数，分别用单分类器和多分类器对中文和目文本进行了实验，最好的结果为召回率为88．87％幢¨。上海交通大学的刁倩、王永成等人结合词权重和分类算法进行分类，在用VSM方法

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于K-均值的文本聚类分析.pdfVIP