数据挖掘中的文本挖掘解析.ppt

下载文档 降价啦

46
0
约2.78千字
约 22页
2017-01-27 发布于湖北
举报
版权申诉
保障服务

数据挖掘中的文本挖掘解析.ppt

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘中的文本挖掘解析

数据挖掘中的文本挖掘张聪目录 Contents 一三二四结语文本挖掘过程文本挖掘的主要研究方向关于数据挖掘和文本挖掘一数据挖掘与文本挖掘 Data Mining and Text Mining 数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性（属于Association rule learning）的信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。文本挖掘一般指文本处理过程中产生高质量的信息，其主要处理过程是对大量文档集合的内容进行预处理、特征提取、结构分析、文本摘要、文本分类、文本聚类、关联分析等操作。高质量的信息通常通过分类和预测来产生，如模式识别。文本挖掘的分类二文本挖掘的主要研究方向 Main Research Direction of Text Mining 文本检索文本分类文本聚类网络浏览文档总结网络浏览文本挖掘技术可以通过分析用户的网络行为等，帮助用户更好地寻找有用信息一个典型的例子是 CMU的WebWatcher 。这是一个在线用户向导，可以根据用户的实际点击行为分析用户的兴趣，预测用户将要选择的链接，从而为用户进行导航。文本检索文本检索主要研究对整个文档文本信息的表示、存诸、组织和访问，即根据用户的检索要求，从数据库中检索出相关的信息资料。主要检索方法有三种：布尔模型是简单常用的严格匹配模型；概率模型利用词条间和词条与文档间的概率相关性进行信息检索；向量空间模型在于将文档信息的匹配问题转化为向量空间中的矢量匹配问题处理。文本分类文本分类是指按照预先定义的主题类别，为文档集合中的每个文档确定一个类别。这样用户不仅可以方便地阅读文档，而且可以通过限制搜索范围来使文档查找更容易。近年来涌现出了大量的适合于不同应用的分类算法，如：基于归纳学习的决策树、基于向量空间模型的 K-最近邻、基于概率模型的 Bayes 分类器、神经网络、基于统计学习理论的支持向量机方法等文本聚类与文本分类相对应的是文本自动聚类。文本聚类是一种典型的无监督机器学习问题。它与文本分类的不同之处在于，聚类没有预先定义好的主题类别，它的目标是将文档集合分成若干个簇，要求同一簇内文档内容的相似度尽可能大，而不同簇间的相似度尽可能小。文档总结文档总结也是 Web 文本挖掘的一个重要内容。它是指从文档中抽取关键信息，用简洁的形式，对文档内容进行摘要和解释，这样用户不需阅读全文就可了解文档或文档集合的总体内容。搜索引擎向用户返回查询结果时，通常需要给出文档摘要，这就是文档总结的一个实例。三文本挖掘过程 Process of Text Mining 文本挖掘过程图示文本预处理文本预处理是文本挖掘的第一个步骤，对文本挖掘效果的影响至关重要，文本的预处理过程可能占据整个系统的 80 %的工作量。与传统的数据库中的结构化数据相比，文档具有有限的结构，或者根本就没有结构即使具有一些结构，也还是着重于格式，而非文档的内容，且没有统一的结构，因此需要对这些文本数据进行数据挖掘中相应的标准化预处理；此外文档的内容是使用自然语言描述，计算机难以直接处理其语义，所以还需要进行文本数据的信息预处理。信息预处理的主要目的是抽取代表文本特征的元数据（特征项），这些特征可以用结构化的形式保存，作为文档的中间表示形式。文本的表示基于自然语言处理和统计数据分析的文本挖掘中的文本特征表示指的是对从文本中抽取出的元数据（特征项）进行量化，以结构化形式描述文档信息。这些特征项作为文档的中间表示形式，在信息挖掘时用以评价未知文档与用户目标的吻合程度，这一步又叫做目标表示。文本表示的模型常用的有：布尔逻辑模型，向量空间模型潜在语义索引和概率模型。其中VSM是使用最多的方法也是效率最好的方法。VSM的基本思想是使用词袋法表示文本，这种表示法的一个关键假设，就是文章中词条出现的先后次序是无关紧要的，每个特征词对应特征空间的一维，将文本表示成欧氏空间的一个向量。特征集约减通常，特征子集的提取是通过构造一个特征评估函数，对特征集中的每个特征进行评估，每个特征获得一个评估分数，然后对所有的特征按照评估分大小进行排序，选取预定数目的最佳特征作为特征子集。特征集约减的目的有三个：1）为了提高程序效率，提高运行速度；2）数万维的特征对文本分类的意义是不同的，一些通用的、各个类别都普遍存在的特征对分类的贡献小，在某个特定的类中出现的比重大而在其他类中出现比重小的特征对文本的贡献大。3）防止过拟合（Over