财务大数据分析1.2大数据挖掘概论1.3课程单元设计（教案）：大数据挖掘概论.docVIP

下载本文档

207
0
约4.78千字
约 11页
2021-07-09 发布于北京
举报
版权申诉

财务大数据分析1.2大数据挖掘概论1.3课程单元设计（教案）：大数据挖掘概论.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE PAGE 1 财务大数据课程单元设计授课时间第 2周共 3节课次 1 授课方式（请打√）理论课√ 讨论课√ 实验课□ 习题课√ 其他□ 课时安排 3 授课题目（教学章、节或主题）：第三节：大数据挖掘概论教学目的、要求（分掌握、熟悉、了解三个层次）：知识目标：熟悉大数据挖掘的方法。能力目标：1.熟悉大数据挖掘的三类任务。 2.熟悉大数据特征选择、特征提取的方法。 3.熟悉文本向量空间和文本概率模型。 4.熟悉大数据的分类方法。 5.熟悉大数据的聚类方法。 6.熟悉大数据的回归分析方法。教学重点及难点：大数据的特征选择、特征提取文本向量空间和文本概率模型大数据的分类方法大数据的聚类方法大数据的回归分析方法教学基本内容方法手段任务一、课前预习一、利用职教云APP预习教学课件；二、针对预习内容提出问题，在职教云APP中提出问题，做好笔记；任务二、课堂面授 ?大数据挖掘的三类任务　数据挖掘的任务分为描述任务和预测任务。描述任务包括：相关分析、聚类、序列分析等。预测任务包括：回归和分类。分类任务就是确定对象属于哪个预定义的类。具体来说，就是将数据对象自动归入一个或多个事先定义好的类中。聚类任务是根据数据的不同特征，将其划分为不同的数据类。数据聚类的主要依据为：同类对象的相似度较大，而不同类对象的相似度较小。回归分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象讨论其相关方向及相关程度，是研究变量之间不确定性关系的一种统计方法。经典例题：【例题?多选题】数据挖掘中的描述性任务有哪些？相关分析 B.聚类 C. 回归分析 D.序列分析『答案解析』 ABD 【例题?多选题】数据中的潜在联系模式有哪些？相关 B.聚集 C. 趋势 D.异常『答案解析』 ABCD 【例题?判断题】数据分类是一个无监督的学习过程。『答案解析』 False ?大数据的特征选择和特征提取特征选择在大数据应用系统中，需要进行样本的特征选择，即在不削弱样本主要特征的前提下，从大量的属性或词条中选取那些最能区别不同样本的属性作为特征项，从而降简化计算、提高分类准确性。特征选择的主要方法分为两大类：有监督方法和无监督方法。有监督方法主要有信息增益、卡方统计量；无监督方法主要有互信息以及针对文本内容的文档频率。特征提取在文本数据中，由于自然语言中存在大量的多义词、同义词现象，特征集无法组成一个最优的特征空间对文本内容进行描述。特征提取就需要对原始特征空间进行变换，从而生成一个维度更少，各维之间更独立的特征空间。特征提取的基本方法为变换法，包括了主成分分析和奇异值分解等方法。基于深度学习的特征提取深度学习通过对底层特征进行组合，从而抽取出更深层的特征，获得样本数据的分布式表示。而分布式特征则是通过深度学习模型中的神经网络结构中的各个隐含层逐层获得的。为了进行句子的特征提取，需要采用递归神经网络模型。获取句子低维度的向量表示需要句子的树形结构作为先验知识，一般可以采用贪心算法来得到最优的树形结构。一旦获取之后，就可以构建递归神经网络模型进行特征的提取，凭借大量的计算提取出深层特征。经典例题：【例题?多选题】特征选择中的有监督方法有哪些？ A. 互信息 B.文档频率 C.信息增益 D.卡方统计量『答案解析』 CD 【例题?单选题】主成分分析法的核心思想是什么？ A. 计算概率 B.计算频率 C.进行降维 D.进行增维『答案解析』 C 【例题?判断题】特征值分解只能针对方阵提取特征，奇异值分解可以针对任意矩阵提取特征。『答案解析』 True 【例题?多选题】自编码方法中的三层神经网络包含哪些？ A. 输入层 B.输出层 C.转化层 D.隐含层『答案解析』 ABD ?文本向量空间和文本概率模型文本向量空间模型文本向量空间模型即为文本相似度算法，在文章个性化推荐中应用较广。向量空间模型的建立可以分为两步，降维和相似度检测。首先获得词频（TF）和逆文档频率（IDF），将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的几个词，就是这篇文章的关键词。我们根据TF-IDF的值来选择关键词就达到了降维的效果。在降维的基础上，对两篇文章进行相似度检测。距离计算法是计算两个向量之间的距离，来反映两个文本的相似度。常用的方法有向量内积、向量余弦值。文本概率模型文本的概率模型首先就是考虑如何将词汇先后顺序上的关系反映到模型中，也就是语义的体现，然后再去进一步考虑将文档内容中的语义信息表达出来。由此