数据挖掘的技术解读.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 8章 数据挖掘的新技术 本章要点: 文本挖掘技术的基本概念,挖掘过程和应用; Web数据挖掘技术; 数据可视化技术,可视化数据挖掘技术的应用; 地理信息系统,空间数据挖掘; 分布式数据挖掘系统及分布式数据挖掘研究现状。 第 8章 数据挖掘的新技术 8.1文本挖掘技术 8.2 Web数据挖掘技术 8.3可视化数据挖掘技术 8.4基于GIS的空间数据挖掘技术 8.5分布式数据挖掘 8.1文本挖掘技术 8.1.1文本挖掘概述 8.1.2文本挖掘的过程 8.1.3文本挖掘的方法 8.1.4文本挖掘与信息检索 8.1.5文本挖掘的应用 8.1.1文本挖掘概述 文本挖掘(Text Mining)是数据挖掘的一个分支,它是把文本型信息源作为分析的对象,利用定量计算和定性分析的方法,从中寻找信息的结构、模型、模式等各种隐含的知识,这种知识对用户而言是新颖的,具有潜在价值。 文本挖掘是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系,它从大型数据库中提取尚未被人们认识到的模式或关联。因此,文本挖掘技术的出现为文本信息的整理、分析、挖掘提供了有效手段。 8.1.1文本挖掘概述 文本挖掘涵盖多种技术,包括信息抽取,信息检索,自然语言处理和数据挖掘技术。它的主要用途是从原本未经使用的文本中提取出未知的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。文本挖掘在商业智能、信息检索、生物信息处理等方面都有广泛的应用。例如,客户关系管理,自动邮件回复,垃圾邮件过滤,自动简历评审,搜索引擎等等。 8.1.2文本挖掘的过程 文本挖掘过程一般包括文本准备、特征标引、词频矩阵将维、知识模式的提取、知识模式的评价、知识模式的输出等过程。如下图: 8.1.2文本挖掘的过程 (1)文本准备阶段是对文本进行选择、净化和预处理的过程,用来确定文本型信息源以及信息源中用于进一步分析的文本。具体任务包括词性的标注、句子和段落的划分、信息过滤等。 (2)特征标引是指给出文本内容特征的过程,通常由计算机系统自动选择一组主题词或关键词可以作为文本的特征表示。 (3)词频矩阵将维就是自动从原始特征集中提取出部分特征的过程,一般通过两种途径:一是根据对样本集的统计分析删除不包含任何信息或只包含少量信息的特征;二是将若干低级特征合成一个新特征。 8.1.2文本挖掘的过程 (4)知识模式的提取是发现文本中的不同实体、实体间概念关系以及文本中其他类型的隐含知识的过程。 (5)知识模式评价阶段的任务是从提取出的知识模式集合中筛选出用户感兴趣的、有意义的知识模式。 (6)知识模式输出的任务是将挖掘出来的知识模式以多种方式提交给用户。 文本挖掘可以完成不同文档的比较,以及文档重要性和相关性排列,或者找出多文档的模式及趋势。 8.1.3文本挖掘的方法 文本挖掘可以对大量文档集合的内容进行总结、关联分析、分类和聚类分析等。挖掘文本数据库的方法如下: (1)文本总结。文本总结是从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要创览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合十分有用。例如,搜索引擎在向用户返回查询结果时,可以给出文档的摘要,便于用户的理解。 8.1.3文本挖掘的方法 (2)基于关键字的关联分析。 关键字的关联分析首先要收集经常一起使用的关键词或词汇,然后找出其关联或相互关系。在这类分析中,每一个文档被视为一个事务,文档中的关键字组可以视为事务中的一组事务项。这样,这种基于关键字的关联分析就变成事务数据库中事务项的关联挖掘问题。一些经常连续出现或紧密相关的关键字可以形成一个词或词组。关联分析有助于找出复合关联,即领域相关的词或词组,如[计算机,软件,硬件]。 与文本数据库中大多数数据分析和搜索引擎中的方法一样,关联分析首先要对文本数据进行分析、词根处理(即词根还原,一个词的多种变形视为一个词,如 do、 done、 doing、 does、 did均视为一个词)、去除停用词、去除一部分对文章语义分析无意义的词(主要是介词、冠词,如 in、 the、 of等),然后调用关联挖掘算法。在文档数据库中,把每个文档作为一个事务,文档中的关键词组可视为事务中的一组事务项。这样文档数据库中关键字关联规则挖掘的问题就转化为事务数据库中项集的关联规则挖掘问题。 8.1.3文本挖掘的方法 (3)

文档评论(0)

风凰传奇 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档