- 1、本文档共47页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据仓库与数据挖掘;本章内容
1.文本数据挖掘
2.时序数据挖掘;文本和时序数据挖掘;1.文本数据挖掘;1.文本数据挖掘;1.文本数据挖掘;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.文本分析与挖掘的主要方法;2.词频-逆文本频率(TF-IDF)
词频-逆文本频率TF-IDF(TermFrequency–InverseDocumentFrequency)是一种用于信息检索与数据挖掘的常用加权技术。TF(TermFrequency)表示词条在文本中出现的频率,IDF(InverseDocumentFrequency)是逆文本频率指数,表示如果包含文本特征词w的文档越少,则说明w具有很好的类别区分能力。
;2.词频-逆文本频率(TF-IDF)
TF-IDF的优点是简单快速,易于理解,但是只用词频衡量文档中词的重要性还是不够全面,无法体现词在上下文中的重要性。因此虽然BoW和TF-IDF在各自方面都很受欢迎,但在理解文字背景方面仍然存在空白。因此又出现了Word2Vec、CBOW、Skip-gram等词嵌入技术。
在scikit-learn中,有两种方法进行TF-IDF的预处理。第一种方法是在用CountVectorizer类向量化之后再调用TfidfTransformer类进行预处理。另一种方法则直接用TfidfVectorizer完成向量化与TF-IDF预处理。
;2.4文本分类
文本分类是文本分析中的一项重要工作。给定文档集合和预先定义的类别集合,文本分类是将文档划分到一个或多个类别中。文本分类中最常见的应用场景是垃圾邮件分类以及情感分析。文本分类过程包括文本预处理、特征提取和训练分类器三个阶段。
文档表征为特征向量之后,就可以选择使用分类算法进行训练。常用的分类算法有贝叶斯模型、随机森林、SVM、KNN和神经网络等。
;2.4文本分类
【例11-3】文本分类示例
THUCNews是根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成,包含74万篇新闻文档。原始新浪新闻数据集整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。我们随机从中抽取4456篇文档进行文本分类训练,随后抽取1902篇文档进行新闻分类预测。采用的模型是传统的朴素贝叶斯模型和支持向量机模型。
;2.5文本聚类
文本聚类旨在将相似的文档划分为簇,使得同一簇中文档相似性较大,而簇之间的相似性则较小。
;2.6文本可视化
文本可视化技术把用文字符号表示的信息转化为用图形、图像或动画表示的信息,其目的在于让人直观地观察到核心信息和关键数据,从而快速发现其中蕴含的知识。
;随着云计算和物联网等技术的发展,时间序列数据的数据量急剧膨胀。高效分析时间序列数据,使之产生业务价值成为一个热门话题。时间序列分析广泛应用于股票价格、广告数据、气温变化、工业传感器数据、个人健康数据、服务器系统监控数据和车联网等领域中。
;?;2.时间序列分析
时间序列分析是一种动态数据处理的统计方法,该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计变化规律,以解决实际问题。通常影响时间序列变化的要素有长期趋势、季节变化、循环波动和随机因素。
(1)长期趋势(T):是时间序列在长时期内呈现出来的持续向上或持续向下的变动。
(2)季节变动(S):是时间序列在一年内重复出现的周期性波动。
(3)循环波动(C):是时间序列呈现出的非固定长度的周期性变动。
(4)随机因素(I):是时间序列中除去长期趋势、季节变动和循环波动之后的随机波动。不规则波动通常总是夹杂在时间序列中,致使时间序列产生一种波浪形或震荡式的变动。
;2.2时间序列平稳性和随机性判定
平稳性是时间序列的一个属性,一个平稳的时间序列指的是这个时间序列和时间无关,也就是说,如果一个时间序列是平稳的,那么这个时间序列的统计量均值、方差和自相关系数都是一个常数,和时间无关。
1.时间序列数据平稳性检验
在做时间序列分析时,经常要对时间序列进行平稳性检验。用Python来进行平稳性检验主要有时序图检验、自相关图检验以及构造统计量进行检验3种方法。
;(1)时序图检验
时序图就是普通的时间序列图,即以时间为横轴,观察值为纵轴进行检验。利用时序图可以粗略观察序列的平稳性。
【例11-5】绘图时序图观察序列的平稳性
;(2)自相关图检验
自相关函数(autocorrelationfunction,ACF)描述的是时间序列观测值与其过去的观测值之间的线性相关性,表
您可能关注的文档
- 1.1集合的概念基础题同步练习-2024-2025学年高一上学期数学人教A版(2019)必修第一册.docx
- 1.4+.1充分条件与必要条件-2024-2025学年高一上学期数学人教A版(2019)必修第一册.pptx
- 1.5.2++全称量词命题与存在量词命题的否定+课件-2024-2025学年高一上学期数学人教A版(2019)必修第一册.pptx
- 第 1 章 数据挖掘概论.pptx
- 第 2 章 Python数据分析与挖掘基础.pptx
- 第 3 章 认识数据.pptx
- 第 4 章 数据预处理.pptx
- 第 6 章 关联分析.pptx
- 第 9 章 神经网络与深度学习.pptx
- 第 8 章 聚类教学课件.pptx
文档评论(0)