第四节_文本挖掘概述课件.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四节_文本挖掘概述课件

第四节 文本挖掘概述 一、文本挖掘的定义 文本挖掘是数据挖掘的一个分支。 将文本型信息源作为分析对象,利用智能算法,如神经网络、基于案例的推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、网页、企业管理日志等),从中寻找信息的结构、模型、模式等各种隐含的知识。 文本挖掘就是利用计算机的高速度和海量处理能力,来帮助人们处理文本信息。 一、文本挖掘的定义 文本挖掘(text mining):是指抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。 Text data mining 、knowledge discovery from textual databases 二、文本挖掘的作用 提高了海量非结构化信息源的利用价值; 使得人们能够更加方便地从海量文本中发现隐含的知识; 为企业的战略决策提供竞争情报的支持 文本挖掘的过程 相对于数据挖掘而言,文本挖掘技术还不成熟。 文本数量巨大,结构不统一,处于动态变化中; 自然语言理解理论在语言的深层理解方面没有根本性的突破,致使文本处理的准确度不高,文本挖掘的效果不够理想。 计算机理解语言的能力非常有限! 三、文本挖掘的关键技术 为什么要进行文本分析? 文本是以文字串形式表示的数据文件。 文本分析过程即通过文本分析,从中找出一些特征以便将来使用。 文本分析包括语种识别、特征提取、文本聚类和文本分类等。 为什么要进行文本分析? 把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。 三、文本挖掘的关键技术 文本表示是指用文本的特征信息集合来代表原来的文本。 目前,在信息处理领域,文本的表示方法主要是采用向量空间模型(Vector Space Model,VSM)。 向量是既有大小又有方向的量。 三、文本挖掘的关键技术 向量空间模型的基本思想是以向量来表示文本:(W1,W2,W3……Wn),其中Wi 为第i个特征项的权重。 特征项一般选用字、词或词组。因此要将文本表示为向量空间中的一个向量,就首先将文本分词,用这些词作为向量的维数来表示文本。 最初的向量表示完全是0、1的形式。但这种形式无法体现词在文本中的作用程度,故0、1逐渐被更精确的词频代替。 三、文本挖掘的关键技术 语种识别工具能自动发现文本使用的语种。这类工具应用文本内容的一些线索来识别语种。通常用机器领域里的算法,利用相应语种的训练文本进行训练,最终实现识别的目的。 四、文本挖掘的关键技术 用于表示文本的基本单位通常称为文本的特征或特征项。 在中文文本中可以采用字、词或短语作为表示文本的特征项。 特征提取主要是使用自动的提取过程,识别文本中词项的意义。 特征提取对掌握该文本的内容很重要,是一种强有力的文本挖掘工具。 在一篇文本中,标题是该文本的高度概括,文本中的特征,如人命、地名、组织名等是文本中的主体信息。 四、文本挖掘的关键技术 特征是概念的外在表现形式,特征提取是识别潜在概念结构的重要基础。 利用自动标引技术可以对文本进行特征标引。 对汉语文本进行特征抽取时,需要先对文本进行分词处理。 分词实例 和平民主 和平、民主 和、平民、主 提高人民生活水平 提高、高人、人民、民生、生活、活水、水平 四、文本挖掘的关键技术 利用计算机抽取西文关键词,首先要建立一个以介词、冠词、连词等无实质意义的单词组成的停用词表( stop words ),然后利用创建的停用词表,从被标引的文本中筛去停用词,抽取关键词。 Natural Language Processing 抽取关键词的方法与过程 利用计算机抽取西文关键词,首先要建立一个以介词、冠词、连词等无实质意义的单词组成的停用词表,然后利用创建的停用词表,从被标引的文本中筛去停用词,抽取关键词。 (1)从文本中取出一个单词:西文中每两个单词间有空格间隔,可通过空格取词。 (2)确定候选关键词:利用取出的词去搜索停用词表,如是停用词则舍去;否则,则作为候选词。 抽取关键词的方法与过程 (3)分析候选关键词:对于重复的候选关键词,删除重复词,同时累计词频。如果标引对象是全文,还可以根据位置给候选关键词赋予权重,例如,权值最高的位置是标题,其次是文摘、首尾段、首尾句、其他位置,然后计算每个被取出词的权值之和,并将它们按权值从大到小排序,根据排序结果决定所取出的词是否作为标引词。 (4)确定标引词:如果标引对象是标题,只需判断所取出的候选词是否重复,去重后,这些词可以全部作为标引词。如果标引对象是文摘或全文,抽出的候选关键词会很多,需要对它们

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档