- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
商务数据分析测试题
简答题
一、商务数据搜集要注意的原则有哪些?
为了保证收集工作的有效性和数据价值,需要注意以
下几个原则:
(1)及时性。注意数据的产生时间,过时的数据解决
不了当下的问题。
(2)全面性。充分考虑到内部和外部的数据来源,尽
量避免幸存者偏差、选择性偏差等。
(3)相关性。避免犯两类错误:有什么数据就用什么
数据,且喜欢复杂的模型;不进行事前调查,没有任
何基础就想当然的收集数据。
(4)经济性。在选择要分析的商业指标、确定数据收
集方法以及收集流程的过程中,要将可能产生的效益
与花费的人力、物力、财力、时间等成本进行衡量,
从而制定更为经济可行的数据收集方案。
二、说明商务数据收集的流程
数据分析人员可以按照如下的流程进行操作:
(1)定位商业问题,确定有理有据的收集指标。定位
商业问题的最终目的是要透过现象看本质,运用4W
提问法挖掘期望成果和行动之间的因果关系。
1
(2)考虑指标特征,选择经济可行的收集方法。确定
了要收集的数据指标后,就需要着手根据指标特征结
合收集成本,考虑获取数据应使用的方法。
(3)明确任务分工,制定切实有效的收集方案。在正
式进行数据收集工作前,应明确数据收集的指标范围
和时间范围。接着明确这些数据需要从哪些途径及部
门收集,最后确定参与部门和人员配备并落实为工作
方案。
(4)建立数据规范,进行完整准确的数据检查
数据指标需对数据进行唯一性标识,并且贯穿之后的
数据查询、分析和应用,建立数据指标规范是为了使
后续工作有一个可以遵循的原则,也为庞杂的数据分
析工作确定了可以识别的唯一标识。
三.说明通过各种渠道收集的原始数据存在的问题?
原始数据主要存在以下几个问题:
(1)缺失数据,是指在实践过程中因种种原因没有能
够获取观测对象的相关信息,造成数据不完全。
(2)异常值数据,也可称为离群点,是指所获得的数
据中与平均值的偏差超过两倍及两倍以上标准差的数
据。
2
(3)重复数据,一般分为实体重复和字段重复两种。
其中,实体重复是指所有字段完全重复,字段重复则
表示某一个或多个不该重复的字段重复。
(4)冗余数据,一方面是指多个数据集合并时,同一
内容不同命名或者编码,例如某数据集中的变量名称
为“用户编码”,在另一个数据集中却为“id”;另
一方面也指数据集中的2个或多个变量之间存在相关
或者推导关系。冗余数据会造成数据重复或分析结果
产生偏差。
(5)不一致数据,一般表现为3个方面的问题:一是
人为/机械原因导致的录入错误或者数据规范不同;二
是变量单位或者量纲不匹配;三是数据特征不适应特
定数据分析模型的需求或变量过多分析难度较大。
四、分析数据集数列,哪些指标可以测度数据的集中
趋势?
答:测度数据的集中趋势的指标可分为数值平均数和
位置代表值两大类。数据平均数主要包括算术平均数、
调和平均数和几何平均数;位置代表值主要有中位数
和众数。
数列的算术平均数为15,调和平均数为5.14,几何平
均数10.50,中位数为13,没有众数。
3
论述题
一、二手数据的收集方法有哪些?举例说明。
二手数据包括内部数据和外部数据两种。
(1)内部数据
内部数据来自于组织内部,因其他目的而收集。内部
数据的收集来源为业务资料、统计资料、数据库等(企
业数据库、部门沟通等),收集方法包括报表收集、
数据库收集、系统日志数据收集等。
①报表收集。报表收集是指企业可以通过相关业务部
门每日、周的工作报表进行数据收集,如销售明细、
出入库清单、客服记录等。
②数据库收集。数据库收集是指企业将数据库收集系
统直接对接到业务后台服务器,业务后台每时每刻产
生的大量业务记录即可写入到数据库中,最后由特定
的处理系统进行数据分析。
③系统日志数据收集。系统日志数据收集主要针对互
联网上的商务活动。网站日志会记录访客IP地址、访
问时间、访问次数、停留时间、访客来源等数据。通
过对这些日志信息进行
文档评论(0)