第 11 章 本文和时序数据挖掘.pptx

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据仓库与数据挖掘;本章内容

1.文本数据挖掘

2.时序数据挖掘;文本和时序数据挖掘;1.文本数据挖掘;1.文本数据挖掘;1.文本数据挖掘;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.词频-逆文本频率(TF-IDF)

词频-逆文本频率TF-IDF(TermFrequency–InverseDocumentFrequency)是一种用于信息检索与数据挖掘的常用加权技术。TF(TermFrequency)表示词条在文本中出现的频率,IDF(InverseDocumentFrequency)是逆文本频率指数,表示如果包含文本特征词w的文档越少,则说明w具有很好的类别区分能力。

;2.词频-逆文本频率(TF-IDF)

TF-IDF的优点是简单快速,易于理解,但是只用词频衡量文档中词的重要性还是不够全面,无法体现词在上下文中的重要性。因此虽然BoW和TF-IDF在各自方面都很受欢迎,但在理解文字背景方面仍然存在空白。因此又出现了Word2Vec、CBOW、Skip-gram等词嵌入技术。

在scikit-learn中,有两种方法进行TF-IDF的预处理。第一种方法是在用CountVectorizer类向量化之后再调用TfidfTransformer类进行预处理。另一种方法则直接用TfidfVectorizer完成向量化与TF-IDF预处理。

;2.4文本分类

文本分类是文本分析中的一项重要工作。给定文档集合和预先定义的类别集合,文本分类是将文档划分到一个或多个类别中。文本分类中最常见的应用场景是垃圾邮件分类以及情感分析。文本分类过程包括文本预处理、特征提取和训练分类器三个阶段。

文档表征为特征向量之后,就可以选择使用分类算法进行训练。常用的分类算法有贝叶斯模型、随机森林、SVM、KNN和神经网络等。

;2.4文本分类

【例11-3】文本分类示例

THUCNews是根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成,包含74万篇新闻文档。原始新浪新闻数据集整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。我们随机从中抽取4456篇文档进行文本分类训练,随后抽取1902篇文档进行新闻分类预测。采用的模型是传统的朴素贝叶斯模型和支持向量机模型。

;2.5文本聚类

文本聚类旨在将相似的文档划分为簇,使得同一簇中文档相似性较大,而簇之间的相似性则较小。

;2.6文本可视化

文本可视化技术把用文字符号表示的信息转化为用图形、图像或动画表示的信息,其目的在于让人直观地观察到核心信息和关键数据,从而快速发现其中蕴含的知识。

;随着云计算和物联网等技术的发展,时间序列数据的数据量急剧膨胀。高效分析时间序列数据,使之产生业务价值成为一个热门话题。时间序列分析广泛应用于股票价格、广告数据、气温变化、工业传感器数据、个人健康数据、服务器系统监控数据和车联网等领域中。

;?;2.时间序列分析

时间序列分析是一种动态数据处理的统计方法,该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计变化规律,以解决实际问题。通常影响时间序列变化的要素有长期趋势、季节变化、循环波动和随机因素。

(1)长期趋势(T):是时间序列在长时期内呈现出来的持续向上或持续向下的变动。

(2)季节变动(S):是时间序列在一年内重复出现的周期性波动。

(3)循环波动(C):是时间序列呈现出的非固定长度的周期性变动。

(4)随机因素(I):是时间序列中除去长期趋势、季节变动和循环波动之后的随机波动。不规则波动通常总是夹杂在时间序列中,致使时间序列产生一种波浪形或震荡式的变动。

;2.2时间序列平稳性和随机性判定

平稳性是时间序列的一个属性,一个平稳的时间序列指的是这个时间序列和时间无关,也就是说,如果一个时间序列是平稳的,那么这个时间序列的统计量均值、方差和自相关系数都是一个常数,和时间无关。

1.时间序列数据平稳性检验

在做时间序列分析时,经常要对时间序列进行平稳性检验。用Python来进行平稳性检验主要有时序图检验、自相关图检验以及构造统计量进行检验3种方法。

;(1)时序图检验

时序图就是普通的时间序列图,即以时间为横轴,观察值为纵轴进行检验。利用时序图可以粗略观察序列的平稳性。

【例11-5】绘图时序图观察序列的平稳性

;(2)自相关图检验

自相关函数(autocorrelationfunction,ACF)描述的是时间序列观测值与其过去的观测值之间的线性相关性,表

文档评论(0)

弹弹 + 关注
实名认证
内容提供者

人力资源管理师、教师资格证持证人

该用户很懒,什么也没介绍

版权声明书
用户编号:6152114224000010
领域认证该用户于2024年03月13日上传了人力资源管理师、教师资格证

1亿VIP精品文档

相关文档