第1讲--文本挖掘概述.pptxVIP

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1讲--文本挖掘概述

第1讲 文本挖掘概述; 1 什么是文本挖掘? 2 文本挖掘的基本思想 3 文本挖掘和数据挖掘的区别和联系 4 文本挖掘的一般过程 5 文本挖掘可以解决什么类型的问题? 6 文本挖掘应用 7 文本挖掘在医疗领域应用的案例展示 ;1 什么是文本挖掘?; 2 文本挖掘的基本思想 首先利用文本切分技术,抽取文本特征,将文本数据转化为能描述文本内容的结构化数据,然后利用聚类、分类技术和关联分析等数据挖掘技术,形成结构化文本,并根据该结构发现新的概念和获取相应的关系。;文本挖掘特点:;3 文本挖掘与数据挖掘的区别和联系;数据粗分为两种类型: (a)有序数值类型 可以比较大小,例如,“重量”和“收入” (b)分类类型。 分类属性是在代码书中定义的无序数值代码。 最常见分类类型数据是可以取值为“真”或者“假”的属性,用1表示真,0表示假。 学习程序并不关心代码含义,而最终理解学习程序结果却要依赖代码含义。 ; 文本是以文字串形式表示的数据文件 非结构化文本源(如文档、网页、企业管理日志等) 文本的特点 语言难点:文本不是给计算机阅读的 复杂的语言结构:语法语义 更困难的:歧义 多语言 ; 经典的数据挖掘和文本挖掘的数据表示有很大不同。文本挖掘方法想要看到文档格式,而经典数据挖掘方法着重于处理电子表格格式的数据,而在文档领域描述数据的标准是称为XML格式的变体。很明显,我们期望文本和数字是完全不同的。 我们将讨论的文本方法和数据挖掘中使用的方法是相似的。这些方法已经被证明是非常成功的,尽管它们没有考虑到特定的文本属性,例如语法的概念或者文字的意义。通过使用频率信息——例如一个词在文档中出现的次数——成熟的机器学习方法得以应用于文本挖掘。 文本挖掘的一个重要支撑是---文本数据到数值数据的转换,所以虽然数据初始表示不同,但是通过中间阶段将数据转换成到经典的数据挖掘编码格式,无结构的数据将会被结构化。;将数据从文本转换到标准数值形式。 将文本转换为标准的电子表格格式,并且填写电子表格的单元格。 可考虑将文档看作一个完整的样例。列是??以被衡量的属性。在文本的最基本模型中,可认为词的出现或不出现为每个文档中的可度量属性。因此,每行表示一个文档,每列表示一个词。如图,用1或者0填写单元格。在这个样例中,词“收入”出现在文档1和3,而不是文档2或4。;考虑文档为一个集合。属性集将是集合中唯一词的总集合。我们称这个词集为字典。样例是个别的文档。一个应用程序可能有数千个或者甚至数以百万计的文档。这个字典将集中到比文档数目更小的词,但仍然可以编号到几十万。 正常情况下的电子表格矩阵是稀疏的:任何单个文档仅仅使用字典中词的潜在集合的一个极小的子集。因为这一特殊性质,电子表格仍然是一个合理的概念模型数据。 文本挖掘方法主要集中于正匹配,不担心其他词是否存在于文档。此观点也引起了处理时的极大简化,往往使得文本挖掘程序可以处理常规数据挖掘认为规模过于庞大的问题。 尽管文本挖掘在高维度进行操作,但是在很多情况下,由于多数文档和多数实际应用程序的稀缺性,处理过程还是很高效的。; 4 文本挖掘的一般过程;文本挖掘的一般过程解释;图 3 鼻炎非药物治疗手段;文本挖掘处理过程;文本挖掘的任务;2 文本特征抽取 抽取代表文本特征的特征项,这些特征可以用结构化的形式保存,作为文档的中间表示形式。 文本特征表示:对从文本中抽取出的特征项进行量化,以结构化形式描述文档信息。这些特征项作为文档的中间表示形式,在信息挖掘时用以评价未知文档与用户目标的吻合程度,这一步又叫做目标表示。 ;特征子集的提取:是通过构造一个特征评估函数,对特征集中的每个特征进行评估,每个特征获得一个评估分数,然后对所有的特征按照评估分大小进行排序,选取预定数目的最佳特征作为特征子集。;3 文本模式挖掘 文本挖掘系统核心功能是分析文本集合中各个文本之间共同出现的模式 例如:蛋白质P1和酶E1存在联系,在其他文章中说酶E1和酶E2功能相似,还有文章把酶E2和蛋白质P2联系起来,我们可以推断出P1和P2存在联系 4 模式评价和可视化 也就是文本挖掘系统的表示层,简称浏览 ;文本挖掘的用武之地: 文本摘要 文本分类 信息检索 文档聚类与组织 信息提取 预测评估 其他;指从文档中抽取关键信息,用简洁的形式,对文档内容进行摘要和解释,这样用户不需阅读全文就可了解文档或文档集合的总体内容。 如上海交通大学纳讯公司的自动摘要 ;应用广泛,但是对文档分类的命名却不尽如人意。; 1)获取训练文本集:训练文本集由一组经过预处理的文本特征向量组成,每个训练文本(或称训练样本)有一个类别标号; 2)选择分类方法并训练分类模型:文本分类方法有统计方法、机

您可能关注的文档

文档评论(0)

pengyou2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档