商务智能 Chapter07-Text Mining学习课件.ppt

商务智能 Chapter07-Text Mining学习课件.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

2024/11/26传统的自然语言理解是对文本进行较低层次的理解,主要进行基于词、语法和语义信息的分析,并通过词在句子中出现的次序发现有意义的信息。文本高层次理解的对象可以是仅包含简单句子的单个文本也可以是多个文本组成的文本集,但是现有的技术手段虽然基本上解决了单个句子的分析问题,但是还很难覆盖所有的语言现象,特别是对整个段落或篇章的理解还无从下手。将数据挖掘的成果用于分析以自然语言描述的文本,这种方法被称为文本挖掘(TextMining)或文本知识发现(KnowledgeDiscoveryinText).一、文本挖掘的定义?TheInstituteofBusinessIntelligence,HFUT2/86

2024/11/26文本挖掘:文档本身是半结构化的或非结构化的,无确定形式并且缺乏机器可理解的语义;数据挖掘:其对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识因此,数据挖掘的技术不适用于文本挖掘,或至少需要预处理。二、文本挖掘与数据挖掘的区别:?TheInstituteofBusinessIntelligence,HFUT3/86

2024/11/26文本挖掘(textmining):是指抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。Textdatamining、knowledgediscoveryfromtextualdatabases一、文本挖掘的定义?TheInstituteofBusinessIntelligence,HFUT4/86

2024/11/26特征抽取特征选择文本分类文本聚类模型评价文本挖掘的过程?TheInstituteofBusinessIntelligence,HFUT5/86

2024/11/26文本挖掘的过程?TheInstituteofBusinessIntelligence,HFUT6/86特征的建立特征集的缩减学习与知识模式的提取知识模式模式质量的评价文档集文本挖掘的一般处理过程

2024/11/26三、文本挖掘的关键技术?TheInstituteofBusinessIntelligence,HFUT7/86文本预处理文本分类文本聚类文本自动摘要文本的向量空间表示文本特征提取文本相似度

2024/11/26文本是以文字串形式表示的数据文件。文本分析过程即通过文本分析,从中找出一些特征以便将来使用。文本分析包括语种识别、特征提取、文本聚类和文本分类等。为什么要进行文本分析??TheInstituteofBusinessIntelligence,HFUT8/86

2024/11/26从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。?TheInstituteofBusinessIntelligence,HFUT9/86为什么要进行文本分析?

2024/11/26文本表示是指用文本的特征信息集合来代表原来的文本。目前,在信息处理领域,文本的表示方法主要是采用向量空间模型(VectorSpaceModel,VSM)。向量是既有大小又有方向的量。?TheInstituteofBusinessIntelligence,HFUT10/86三、文本挖掘的关键技术文本预处理文本的向量空间表示

2024/11/26向量空间模型的基本思想是以向量来表示文本:(W1,W2,W3……Wn),其中Wi为第i个特征项的权重。特征项一般选用字、词或词组。因此要将文本表示为向量空间中的一个向量,就首先将文本分词,用这些词作为向量的维数来表示文本。最初的向量表示完全是0、1的形式。但这种形式无法体现词在文本中的作用程度,故0、1逐渐被更精确的词频代替。?TheInstituteofBusinessIntelligence,HFUT11/86三、文本挖掘的关键技术文本预处理

2024/11/26语种识别工具能自动发现文本使用的语种。这类工具应用文本内容的一些线索来识别语种。通常用机器领域里的算法,利用相应语种的训练文本进行训练,最终实现识别的目的。?TheInstituteofBusinessIntelligence,HFUT12/86三、文本挖掘的关键技术语种识别

2024/11/26用于表示文本的基本单位通常称为文本的特征或特征项,或文本的元数据。在中文文本中可以采用字、词或短语作为表示

文档评论(0)

155****4925 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档