- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第8章 文本挖掘 大多数非结构化数据以文本文件形式出现,并在数据存储总量中占有较高的比例。由于文本的非结构化,检索、存取、分析和使用这些数据通常并不容易。文本挖掘以文本型信息源作为分析的对象,利用定量计算和定性分析的方法,从中寻找信息的结构、模型、模式等各种隐含的新颖知识,这种 知识为用户检索、存取、分析和使用文本信息带来便利。文本挖掘中的自动摘要、自动聚类、自动分类、信息抽取、文本过滤等技术已经被广泛应用于各类信息系统,为用户提供文本预处理或帮助用户完成某项具体的挖掘任务。 8.1 文本挖掘概述 数据库挖掘处理的对象是结构化的数据,目的是从结构化数据源中发现不同属性之间的关联规则,或者是对数据对象进行聚类及分类处理,或者是构造数据的预测模型。而文本挖掘处理的是非结构化的文本信息,它的主要任务是分析文本的内容特征,发现文本数据库中概念、文本之间的相互关系和相互作用,为用户提供相关知识和信息。因此,文本挖掘和数据库挖掘在目标上具有相似性,在技术实现上具有一定的差异。 (1)特征抽取。文本特征分为一般特征和数字特征,其中一般特征主要包括名词和名词短语;数字特征主要包括日期、时间、货币以及单纯数字信息。特征是概念的外在表现形式,特征抽取是识别潜在概念结构的重要基础。 (2)主题标引。利用传统的关键词标引技术来标引文本,影响文本标引的质量,导致同义标引词的泛滥,影响检索的查全率。同时也会影响特征抽取的准确度。利用主题词标引代替关键词标引可以提高标引的质量,对改善文本的检索效果十分有益。 (3)文本分类。文本分类的任务是基于内容将自然语言文本自动分配给预定义的类别。文本分类技术类似于数据库挖掘中的分类技术,不同之处在于它需要预先对文本进行特征抽取,它利用文本特征向量对文本进行分类。 (4)文本聚类。聚类就是将一个数据对象的集合分组成为多个类或簇。它的分析并不依赖于已知类标记的数据对象。在通常情况下,聚类的训练数据样本没有类标记,它要划分的类是未知的,通过聚类可以产生这种类标记。文本聚类是对给定的文本集根据文本相似度进行聚类的方法。 (5)自动摘要。自动摘要是利用计算机分析文章的结构,找出文章的主题语句,然后经过整理、组合、修饰,构成摘要的过程。人工编制摘要复杂、量大而且费时,特别是目前,对信息量巨大的Web资源进行人工编制摘要是很不实际的。利用自动摘要技术,无须编辑、分类专家或网络管理员就可以自动完成摘要的编制,从而可以节省大量的时间和费用,并且可以避免一些人为的错误。因此,自动摘要对网络信息资源的处理具有重要的现实意义。 8.1.2文本挖掘的一般过程 文本挖掘过程一般包括文本准备、特征标引、词频矩阵降维,以及知识模式的提取、知识模式的评价和知识模式的输出等过程,如图8-1所示。 (1)文本准备阶段是对文本进行选择、净化和预处理的过程,用来确定文本型信息源以及信息源中用于进一步分析的文本,具体任务包括词性的标注、句子和段落的划分、文本过滤等。 (2)特征标引是指给出文本内容特征的过程,通常由计算机系统自动选择一组主题词或关键词可以作为文本的特征表示。 (3)词频矩阵降维就是自动从原始特征集中提取出部分特征的过程,一般通过两种途径:一是根据对样本集的统计分析删除不包含任何信息或只包含少量信息的特征;二是将若干低级特征合成一个新特征。特征集包含过多的特征会增加挖掘的难度,因此,需要在不影响挖掘精度的前提下减少特征项的个数。 (4)知识模式的提取是发现文本中的不同实体、实体之间的概念关系以及文本中其他类型的隐含知识。 (5)知识模式评价阶段的任务是从提取出的知识模式集合中筛选出用户感兴趣的、有意义的知识模式。 (6)知识模式输出的任务是将挖掘出来的知识模式以多种方式提交给用户 8.1.3 文本挖掘的主要应用 随着文本型信息源的迅速增加,特别是互联网的发展,文本信息已经成为一种重要 的知识来源。由于文本信息存储量大,变化快,从中获取知识十分困难,因此,文本挖掘逐渐成为一个研究热点,并在多个领域广泛应用。目前文本挖掘处理主要集中于信息 自动导航、可视化信息检索、信息提取、信息分类、文本聚类等方面。 文本挖掘可以给政府部门的日常工作带来便利,如帮助对于政府部门在大量的公文信息中寻找相关文件和群众的反响,提高政府机关的效率。 文本挖掘可以给企业办公带来许多便利。例如,企业收集和存储的文本信息很多,既包括大量的电子邮件、企业内部的备忘录和周期总结等,也包括关于竞争对手的报纸和新闻、技术报告和专利资料等,利用文本挖掘技术可以使得人们能够更加方便地从海量文本中发现隐含的知识,为企业的战略决策提供竞争情报的支持,从而能够提高海量非结构化信息源的利用价值。 文本挖掘也可以用于网络信息收集。互联网是一种重要的情报来源,利用文本挖掘
您可能关注的文档
最近下载
- 《科学探究:欧姆定律》名师课件.ppt VIP
- 网络服务业网络安全保障与应急响应机制建设方案.doc VIP
- 2025年高中《通用技术》考试卷(含答案) .pdf VIP
- 堰水力计算水利工程.xls VIP
- 人教版(2024新版)七年级上册生物期末复习知识点背诵提纲.docx VIP
- 2025 全国青少年信息素养大赛 Python 编程挑战赛(个人赛)初中组决赛模拟试卷(一).docx VIP
- 一种推送滚轮.pdf VIP
- EPC项目:基于风险管控的质量体系构建与实施.docx VIP
- 4洗涤剂总活性物的测定.pdf VIP
- 沙库巴曲缬沙坦联合松龄血脉康胶囊治疗老年高血压病合并慢性心力衰竭的.pptx VIP
文档评论(0)