文本挖掘技术研究.docVIP

下载本文档

15
0
约4.11千字
约 8页
2018-04-06 发布于北京
举报
版权申诉

文本挖掘技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本挖掘技术研究　　摘要：文章报告了文本挖掘技术的现状、文本挖掘的过程、文本挖掘研究的课题，最后对文本挖掘的前景做了展望。　　关键词：文本挖掘；文档分类；文档聚类；自动文摘　　中图分类号：TP391文献标识码：A文章编号：1009-3044(2008)34-1711-02 　　The Research of Text Mining Technique 　　LIN Hai-wen 　　(Yang-En University, Quanzhou 362014, China) 　　Abstrct: The article reports the actuality、the process and the research-aspects of the text mining technique. At last, gives an expectation for the text mining. 　　Key words: text mining; document classify; document clustering; auto-summary 　　1 引言　　面对浩如烟海的文本信息，人们迫切需要研究出方便有效的工具去从大规模文本信息资源中提取符合需要的、简洁的、精炼的、可理解的知识，文本挖掘(Text Ming，简称TM)因此产生。　　2 正文　　文本挖掘即文本数据库中的知识发现，是从大量文本的集合或语料库中发现隐含的、令人感兴趣的、有潜在使用价值的模式和知识[1]。　　定义1 文本挖掘是指从大量文本集合Doc中发现隐含的模式P。如果将Doc看作输入，P看作输出，那么文本挖掘的过程实质上就是从输入到输出的一个映射：Doc→P。　　2.1 国内外研究现状　　下面列出一些著名的国外文本挖掘工具：　　1) IBM的文本智能挖掘机[2]。　　其主要功能是特征提取、文档聚集、文档分类和检索，支持16种语言的多种格式文本的检索，采用深层次的文本分析和索引方法，支持全文搜索和索引搜索，搜索条件可以是自然语言和布尔逻辑条件，是Client/Server结构，支持大量并发用户做检索任务，联机更新索引。　　2) Autonomy公司的Concept Agents，经过训练以后，它能自动从文本中抽取概念[3]。　　3) TelTech公司的TelTech。　　提供专家服务，专业文献检索服务，产品与厂商检索服务，TelTech成功的关键是建立了高性能的知识结构[4]。　　国内情况：　　表1为部分科研单位与大学对文本挖掘的研究情况。　　2.2 文本挖掘过程　　文本挖掘的过程文本挖掘的主要处理过程是对大量文档集合的内容进行特征集的建立、特征集的缩减、学习和知识模式的提取、模式质量评价等。　　?特征集的建立：由于处理的是非结构化的文本，使得现有的数据挖掘技术无法直接应用，因此要从文本中提取适当的代表其特征的元数据(特征项)，将这些特征用结构化的形式保存起来，从而实现对非结构化的文本处理。　　?特征集的缩减：自然语言文本集中往往包含大量的词汇，如果把这些词都作为特征，其特征维数会相当高，这些特征对将要进行的分类学习未必全是重要、有益的，而且高维的特征会大大增加机器学习的时间，因此需要去掉一些冗余词汇，以降低维数。　　?学习和知识模式的提取：在进行完特征集的缩减后，就可以利用机器学习的各种方法来实现面向特定应用目的的知识模式，通常是进行文本分类或文本的聚类等。　　?模式质量评价：为了客观地评价文本挖掘的效果，经研究提出了很多评测方法, 比较常用的有准确率(P- Precision)、召回率(RRecall)。准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率。　　2.2.1 文本挖掘常用技术　　从文本挖掘技术的研究和应用状况来看，从语义角度来实现文本挖掘的还很少，目前研究和应用最多的文本挖掘技术是文档分类、文档聚类和自动文摘[5]，是挖掘工作最重要的部分，处在挖掘过程的“学习和知识提取”阶段。　　1) 文档分类　　文档分类是按照预先定义的主题类别，为文档集合中的每个文档确定一个类别。这样用户不但能够方便地浏览文档，而且可以限制搜索范围来使文档的搜索更容易、快捷。　　文档分类一般采用统计方法或机器学习来实现。常用的方法有：朴素贝叶斯法(NB)，K-最近邻法(K-NN)、支持向量机 (SVM)、向量空间模型(VSM)、线性最小二乘方估计法(LLSF)等。　　2) 文档聚类　　文档聚类的目标和文档分类是一样的，只是实现的方法不同。文档聚类是无教师的机器学习，在文档归类之