基于大数据视角的财务分析研究.docx

下载文档

1
0
约5.49千字
约 6页
2024-09-10 发布于湖北
举报
版权申诉
保障服务

基于大数据视角的财务分析研究.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于大数据视角的财务分析研究

倪可钟山河王斐

【摘要】?信息化、互联网、物联网的发展推动了大数据时代的到来。大数据时代信息技术发展的巨大变革深刻影响着社会发展的方方面面，同样也对财务分析产生了积极影响。文章通过对大数据及其对财务分析的影响进行研究，提出了相应的应对策略，以期对财务分析工作提供借鉴和思考。

【关键词】??大数据;财务分析;数据挖掘

?F232??A??1002-5812（2020）10-0106-03

财务分析在企业管理中的作用至关重要，为企业经营提供了决策依据，为改善企业管理提供了支持。财务分析具有完整的理论体系和专门的技术方法。大数据势必会对财务分析产生影响，对财务分析人员提出新的要求和挑战。

一、大数据的特点、产生和大数据技术

（一）大数据的特点。大数据（BigData）是需要采用新的处理方法和工具才能高效收集、处理、储存和分析的信息资产，具有“5V”的特点。Velocity是指数据被生成、收集和处理的速度极快。Volume是指数据量宏大，对传统的数据储存、分析和统计推断等带来了巨大挑战。Value是指数据集的价值极高，但是价值密度极低。Variety是指数据种类极多，包括文本、语音、图片、视频、数值等。Veracity是指数据的可靠性，因数据的来源极多，数据的质量可能良莠不齐，因此，需要关注数据集在生成的过程中有没有统计偏倚、数据集是否有缺失值等问题。

（二）大数据的产生。随着人类社会信息化进程的加快和对互联网依赖性的增加，人类在日常生产和生活中都会产生大量数据，如社交媒体（如点赞、评论、转载和视频上传等）、交易系统（包括网购记录、单据和收件回条等）、政务系统、办公系统、自动化系统、财务系统等。近年来，物联网的发展更是推动了数据量的跃升。物联网中的温度感知器、湿度感知器、压力传感器等感知器以及视频监控器，每时每刻都会自动产生大量数据，促使人类社会迅速进入大数据时代。

（三）大数据技术。大数据技术是指伴随着大数据的采集、存储、分析和应用的相关技术，是使用非传统工具对大量的结构化、半结构化和非结构化数据进行处理，从而获得分析和预测结果的一系列数据处理和分析技术。当下最受欢迎的基础技术包括数据采集、数据预处理（包括缺失值处理等）、分布式存储（ApacheHadoop）、NOSQL（NotOnlySQL）数据库、数据仓库、机器学习（各类计算统计学算法）、并行计算（ApacheSpark，MapReduce等）、数据可视化（包括制图）等各种范畴和不同层面的技术。Python语言的Pandas（数据结构与處理）、NumPy（高性能计算）、Scikit-learn（回归问题、聚类分析问题）、TensorFlow（深度学习、规律寻找）、Pytorch（深度学习、人工智能）、Matplotlib（绘图）等库是相当实用的工具;而且，Python还可以兼容HadoopMapReduce，使得解决复杂的大数据问题变得轻松。其他受欢迎的工具还包括R语言（dplyr，ggplot2）和MATLAB等。

（四）大数据的工作流程。

1.数据预处理。在现实生活中，刚刚获取的数据集往往是不完整的：一是表格中数据缺失（MissingValue），如有一些单元格中的数据为空。二是未正确标注种类数据（Categorical/OrdinalData），例如一张调查问卷中的某一个问题给出的满意程度为1—5，而回答5的人的满意程度显然不是回答1的人的5倍，这种情况下进行机器学习会导致模型产生统计偏倚。三是数据集的值有错误，例如在年龄一栏录入了负数等。四是数据集有重复值（Duplicate），会导致在机器学习过程中赋予同一个解释变量更大的权重，从而“稀释”了其他潜在的重要解释变量被发现的可能性。这些不完整、不一致、不正确的数据常常会导致错误的结论，因此，数据科学家在获取一个数据集后，通常需要进行大量的数据预处理。其中，处理数据集中的缺失值通常是数据预处理的一个重要环节，常用的有三种方法：弃用、键入、标示。

弃用的方法最为简单直观。如果一个解释变量（列）中有较少的随机缺失值（没有规律的，因为值缺失的规律也是可关注点之一），则可以考虑弃用有缺失值的观测值（排）。如果一个解释变量中有过多的随机缺失值，那么可以考虑删除该解释变量。

删除和弃用不可避免地会导致信息的丢失，因此，数据科学家可以采用在有缺失值的单元格中键入一个插入值的方法。插入值的选择方法有很多种：第一种方法也是最朴素的方法是插入统计学中的平均值、中值等。通常来说，在正态（无偏态）的数据集中键入平均值表现良好，在有偏态的数据集中键入中值更加稳健（Robust），因为中值不容易受到离群值的影响。第二种方法是（线性）回归插值。这种方法是将缺失值设为