- 14
- 0
- 约1.89万字
- 约 93页
- 2018-06-01 发布于浙江
- 举报
《数据仓库与数据挖掘》课件PPT 7 文本挖掘、序列分析、Web 挖掘
Data Mining: Concepts and Techniques 第7章 文本挖掘、 序列分析、Web挖掘 目录 7.1 文本挖掘 7.2序列分析 7.3 Web挖掘 文本挖掘概述 文本挖掘的基本概念 文本特征的表示 文本特征的提取 文本挖掘的基本概念 文本挖掘一词出现于1998年第十届欧洲机器学习会议上。 Kodratoff认为文本挖掘的目的是从文本集合中,试图在一定的理解水平上尽可能多地提取知识。 概念 文本挖掘是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。 文本数据包括:技术报告、文本集、新闻、电子邮件、网页、用户手册等。 主要任务 (1)短语提取 提取文本集中所有相关的短语 。 (2)概念提取(聚类) 对这些短语之间的关系,建立一个该文本集中的主要概念 。 (3)可视化显示和导航 从多个视角出发进行分析. 文本挖掘与数据挖掘 文本特征的表示 文本特征指的是关于文本的元数据: (1)描述性特征,例如文本的名称、日期、大小、类型等; (2)语义性特征,例如文本的作者、机构、标题、内容等。 文本特征的表示 矢量空间模型(VSM)是效果较好的表示文本特征的方法。每个文本d表示为其中的一个规范化特征矢量: V(d)=(t1,w1(d);…;ti,wi(d);…;tn,wn(d)) d中出现的所有单词作为ti,或所有短语。wi(d)一般被定义为ti在d中出现频率tfi(d)的函数。 函数wi(d)=Ψ(tfi(d)) ,常用的Ψ有: (1)平方根函数 (2)对数函数 文本特征的提取 特征提取主要是识别文本中代表其特征的词项。 文本特征分为一般特征和数字特征,其中一般特征主要包括动词和名词短语,如人名、组织名等; 数字特征主要包括日期、时间、货币以及单纯数字信息。 特征项抽取的判断算法 (1)该特征项集合包含所有该类中出现的词。 (2)对于每个词,计算词Wi和类别Cj的互信息量I(W,C) (3) 对于该类中所有的词,依据上面计算的互信息量排序。 (4)抽取互信息量大的词作为特征项。 (5)根据抽取的特征项进行向量压缩,精简向量表示。 文本挖掘 文本挖掘功能层次 关联分析 文本聚类 文本分类 文本挖掘功能层次 关联分析 文本聚类 文本分类 7.2 时间序列及其应用 时间序列(Time Series)挖掘是数据挖掘中的一个重要研究分支,有着广泛的应用价值 。 近年来,时间序列挖掘在宏观的经济预测、市场营销、客流量分析、太阳黑子数、月降水量、河流流量、股票价格变动等众多领域得到应用。事实上,社会、科学、经济、技术等领域中广泛存在着大量的时间序列数据有待进一步的分析和处理。 时间序列数据挖掘通过研究信息的时间特性,深入洞悉事物进化的机制,是获得知识的有效途径。 时间序列有关概念 从统计意义上来讲,所谓时间序列就是将某一指标在不同时间上的不同数值,按照时间先后顺序排列而成的数列。 时间序列挖掘通过对过去历史行为的客观记录分析,揭示其内在规律,进而完成预测未来行为等决策性工作。 简言之,时间序列数据挖掘就是要从大量的时间序列数据中提取人们事先不知道的、但又是潜在有用的与时间属性相关的信息和知识,并用于短期、中期或长期预测,指导人们的社会、经济、军事和生活等行为。 时间序列有关概念 从数学意义上来讲,如果我们对某一过程中的某一变量进行X(t)观察测量,在一系列时刻t1,t2,…,tn(t为自变量,且t1t2…,tn)得到的离散有序数集合Xt1,Xt2,…,Xtn称为离散数字时间序列。设X(t)是一个随机过程,Xti (i=1,2,…,n)称为一次样本实现,也就是一个时间序列。 时间序列有关概念 时间序列的多样性必须结合序列特点,找到合适的建模方法。 一元时间序列:如某种商品的销售量数列等,可以通过单变量随机过程的观察获得规律性信息。 多元时间序列。如包含气温、气压、雨量等在内的天气数据,通过多个变量描述变化规律。时间序列挖掘需要揭示各变量间相互依存关系的动态规律性。 离散型时间序列:如果某一序列中的每一个序列值所对应的时间参数为间断点,则该序列就是一个离散时间序列。 时间序列有关概念 连续型时间序列:如果某一序列中的每个序列值所对应的时间参数为连续函数,则该序列就是一个连续时间序列。 序列的分布规律:序列的统计特征可以表现平稳或者有规律的震荡,这样的序列是分析的基础点。此外如果序列按某类规律(如高斯型)的分布,那么序列的分析就有了理论根据。 时间序列预测的常用方法 时间序列分析的一个重要应用
原创力文档

文档评论(0)