商业分析实务 第二章商业分析的数据环境 教学PPT课件.pptxVIP

商业分析实务 第二章商业分析的数据环境 教学PPT课件.pptx

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 商业分析的数据环境 数据和数据类型数据获取分析类型与数据需求企业数据资源开发利用 01数据和数据类型 数据数据的出现和被人类所利用,可以追溯到三千多年前的古代。人类在农业社会中,古埃及法老在尼罗河边的石柱上留下每年测量尼罗河水位的刻度,以此来观测来年可能的税收数量。古代中国早在汉代就有人口普查和田亩统计,用于税收政策的制定。在古拉丁文中,它被称为Datum,其复数形式为data,指的是内涵确定、定义明确、毫无歧义的东西,中文,我们称之为数据。数据内容主题属性状态数据的基础谓语对主题属性的描述 数据数字与数据数字是普适性的概念,是对一切事物的数量性质的表达。数据则是具体性的概念,是对一个事物的数量性质的表达。对一个事物可以有多种数据表达形式,取决于人们的认识程度和使用目的。对一个事物的数据表达越多,对这个事物的定义越精准,人们对这个事物的认识就越深入,可利用程度就越高数据和信息两个术语密切相关,事实上,它们常常被互换使用。信息可以定义为以某种方式处理过的数据。处理数据的目的是为了使数据使用者增加知识。数据是使用约定俗成的字符,对客观事物的数量、属性、位置及其相互关系进行抽象表示,可以用人工或自然方式进行保存、传递和处理。信息与数据相比,除了具有自然属性或社会属性,还包括价值判断,尤其是社会价值判断。 数据类型大数据分析是大数据理念与方法的核心,是指对海量、类型多样、增长快速且内容真实的数据(即大数据)进行分析,从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程。通过处理稳定的实时数据流,组织可更加快速地做出时间敏感的决策、监控最新趋势、快速调整方向并抓住新时机。而这些需要对不同类型的数据进行分类并且处理。传统的数据分类一般将数据分为结构化数据与非结构化数据。非结构化数据记录了生产、业务、交易和客户信息等。结构化数据涵盖了更为广泛的内容,包括了如合约、发票、书信与采购记录等营运内容;如文书处理、电子表格、简报档案与电子邮件等业务内容;如HTML与XML等格式信息的Web内容;以及如声音、影片、图形等多媒体内容。 数据类型1.从描述和度量事物的角度将数据分为定量和定性数据数值只能用自然数或整数单位计算。数据定量数据定性数据连续离散有序名义连续数据取值可以是在某一区间的任一实数,通常称这类资料是连续的,或考察的指标是连续的。有序的是指有些资料既不能计量,也不能计数,只能通过比较,评出一个顺序,如学历。名义数据是指,有些资料仅仅是一个名义值,值的顺序和大小并无统计意义。如性别,不同颜色的编号,不同书籍的代码等等。 数据类型2、结合应用场景可以分为以下四种数据类型(1)记录集数据。记录集数据,顾名思义,就是数据的集合。一般是经过汇总的数据集合。可以导入数据库等工具进行直接的运算和分析。常见的记录集数据如客户数据的记录集,事务数如对一件事情的记录、数据矩阵以及文档词矩阵等经过汇总的数据集。这一类数据通常具有明确的指向性,可以抽取样本进行直接的分析。(2)有序的数据。有序的数据是按照一定顺序排列的数据。其数据特征一般存在于不同时间阶段的特征变化之中。一般而言具有较为单一的数据属性。常见有四种数据类型:时序事务数据,基因组序列数据,温度时间序列数据,空间温度序列数据。这些数据不能随意排列,需要按照顺序进行分析。序列分析通常能够发现数据的变动规律,从而对数据的动向进行预测。 数据类型(3)文本类与WEB数据。文本类与web数据是随着互联网的发展产生的非结构化数据。文本和web数据由来自各种数据源的大量文档组成,如新闻文章、研究论文、书籍、数字图书馆、电子邮件消息和web页面信息。其增长速度快,包含的信息量大,信息挖掘的难度也大。在数据分析领域,文本数据的分析是一个重要的方向,包括主题识别和情感分析等。(4)多媒体类数据。文本类的数据带来了数据挖掘的价值,而多媒体数据的挖掘技术将数据分析提上了新的台阶。目前的多媒体数据主要有图像、声音和视频。多媒体的数据分析与文本数据等不同,目前其应用已经得到一定的推广,如音乐辨识、语音识别、基于图像的搜索等等。早有企业将其触角深入这个领域之中,如我国第一家多媒体数据库,国道数据多媒体特色专题数据库。 02数据获取 互联网数据获取网络爬虫(又常被称为网络蜘蛛、或Spider/Crawler系统)是一种按照一定规则,自动抓取万维网信息的程序或者脚本,是最常用的外部网络数据抓取技术。网络爬虫可以自动提取网页的源码,根据网页结构来筛选网页中的数据。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。网络爬虫的执行程序主过程控制器解析器资源库负责给多线程中的各个爬虫线程分配工作任务下载网页,进行页面的处理存放下载到的网页资源,并对其建立索引 移动互联网数据获取SDK(软件开发工具包,Softw

您可能关注的文档

文档评论(0)

土豆 + 关注
实名认证
文档贡献者

~

1亿VIP精品文档

相关文档