第七章-非结构化数据挖掘.ppt

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 数据仓库与数据挖掘 第一章 数据仓库与数据挖掘概述 第二章 数据仓库的分析 第三章 数据仓库的设计与实施 第四章 信息分析的基本技术 第五章 数据挖掘过程 第六章 数据挖掘基本算法 第七章 非结构化数据挖掘 第八章 离群数据挖掘 第九章 数据挖掘语言与工具的选择 第十章 知识管理与知识管理系统 第七章 非结构化数据挖掘 7.1 文本挖掘 7.2 Web数据挖掘 7.3 空间群数据挖掘* 7.4 多媒体数据挖掘* 7.1 文本挖掘 文本挖掘以文本型信息源作为分析的对象,利用定量计算和定性分析的方法,从中寻找信息结构、模型、模式等各种隐含的新颖知识。 文本挖掘的主要目标是获得文本的主要内容特征,如文本涉及的主题、文本主题的类属、文本内容的浓缩等。文本挖掘的具体实现技术主要有如下几种。 7.1 文本挖掘 7.1 文本挖掘 7.1.1 文本挖掘的一般过程与应用 7.1.2 文本表示与预处理 7.1.3 文本分类方法与文本聚类方法 7.1.4 自动摘要方法 7.1.1 文本挖掘的一般过程与应用 (1)文本挖掘过程 7.1.1 文本挖掘的一般过程与应用 (2)文本挖掘的主要应用 目前文本挖掘处理主要集中于信息自动导航、可视化信息检索、信息提取、信息分类、文本聚类等。 7.1.2 文本表示与预处理 (1)文本表示 文本表示是指用文本的特征信息集合来代表原来的文本。 文本的特征信息是关于文本的元数据,可以分为外部特征和内部特征两种类型。文本的外部特征包括文本的名称、日期、大小、类型、文本的作者、标题和机构等信息。文本的内部特征包括主题、分类、摘要等信息。 文本的表示方法主要采用向量空间模型(VSM)。 7.1.2 文本表示与预处理 向量空间模型主要用于文本内容特征的表示,一般使用词来代表文本的特征信息,我们称每个词为一个特征项。 向量空间模型的基本思想是以向量(w1,w2,…,wn)来表示文本,其中wi为第i个特征项的权重。可以选择字、词或者词组作为特征项。 采用向量空间表示文本,文本挖掘问题就被转化为数据挖掘问题。这种表示方法由于在用一个简单的向量表示一篇文本时会损失文本中的大量信息,这种信息的损失会影响到挖掘的效果。 通常选择词作为特征项,并使用词频来表示特征项对应的分量。 7.1.2 文本表示与预处理 词频分为绝对词频和相对词频两种。绝对词频是指词在文本中出现的频率;相对词频是规范化的词频,即要求所有向量分量的平方和为1。 相对词频的计算方法主要运用TF-IDF公式。 7.1.2 文本表示与预处理 (2)文本分词 分词是中文信息处理从字符处理水平向语义处理水平迈进的关键,它是中文自动标引的基础。 汉语分词的难点主要表现在两个方面: 歧义切分:汉语字与字之间组词灵活,给分词带来了很大困难。从上下文关系的角度看,其中只能有一种切分结果是正确的。另外,从标引角度讲,还存在交集型字符串。 未登录词:主要是指分析系统的词典中未收录的词。不断出现的新词属于另外一类未登录词。 7.1.2 文本表示与预处理 分词技术可以分为5类:词典分词法、切分标记分词法、基于统计的分词方法、基于语言规则的分词方法和智能分词法。 1)词典分词法 构造一个机内词典(主题词典、关键词词典和部件词词典)并将其与被标引的信息进行匹配,当从处理的信息中得到词典词汇时,好把它作为后备标引词记载下来,最后利用西文成熟的标引技术进行标引处理。 词典法主要用于主题相对集中的信息库。 词语匹配方法有:就扫描的顺序而言有正向扫描匹配,逆向扫描匹配和正逆向结合扫描匹配,其中正逆向结合扫描匹配可以解决交集型字符串的切分问题。 7.1.2 文本表示与预处理 在进行词语匹配时,有最长匹配、最短匹配、长短匹配结合、词首匹配等多种策略。 2)切分标记分词法 利用切分字典指导分词。 切分字典是由能够断开词和词组或表示汉字之间关系的汉字集合组成字典,包括的内容有词首字、词尾字等,也有的系统以非用字、条件用字等组成切分字典。 切分标记分词法的典型代表是非用词后缀表示方法。 该方法将汉字分为“非用字”、“条件用字”、“表内用字”、“表外用字”,但主要利用“非用字”和“条件非用字”进行词语的划分。 7.1.2 文本表示与预处理 3)基于统计的分词方法 用字与字相邻共现的频率来反映字符串确实是一个词的可信程度。 在上下文中,相邻的词同时出现的次数越多,即越有可能构成一个词。 4)基于语言规则的分词方法 在分词的过程中加入词法、语法以及语义规则等来提高分词的质量。 一般都是人工添加规则,或者在人工添加的基础上再从有限的训练语料库中得到分词规则。 7.1.2 文本表示与预处理 5)智能分词法 利用人工智能的方法进行分词。 常用的有中心词驱动分析法、分词与句法语义分析同步处理法和分层理解分析法等。

文档评论(0)

dgsf201315 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档