- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
国开电大《财务大数据分析与决策》形考任务三客观题含答案
1.【单选】在Hadoop生态中,负责把非结构化账簿影像切分成128MB分片并分发到各节点的组件是
A.Hive?B.Flume?C.HDFS?D.HBase
答案:C
解析:HDFS默认128MB分片,影像文件先被拆块再冗余存放,为后续MapReduce并行解析提供数据本地性保障。
2.【单选】使用Python对上市公司利润表进行数据清洗时,发现“销售费用”列存在“¥3,250.00”与“3250”两种格式,为一次性统一成数值型,最佳调用方式是
A.pd.to_numeric(df[销售费用],errors=coerce)
B.df[销售费用].astype(float)
C.df[销售费用].str.replace([,¥],).astype(float)
D.df[销售费用].apply(lambdax:float(x[1:]))
答案:C
解析:先正则剔除货币符号与千分位,再转浮点,可批量兼容两种格式且不会引入NaN。
3.【单选】在PowerBI中,若要对“客户账龄”建立动态分组(0-30天、31-90天、90天以上),最简便的做法是
A.新建列使用SWITCH函数
B.在“建模”选项卡中创建“分组”
C.书写度量值并用IF嵌套
D.在Excel中预处理后再导入
答案:B
解析:直接右键字段→分组,支持阈值拖拽,自动生成分组列,无需写DAX。
4.【单选】某企业用随机森林预测是否发生坏账,特征“应收账款周转天数”重要性0.32,特征“客户信用评级”重要性0.28,以下说法正确的是
A.周转天数对模型预测贡献高于信用评级
B.必须删除信用评级以降低多重共线性
C.周转天数与信用评级线性相关
D.应增加树深度以提高信用评级重要性
答案:A
重要性数值直接衡量特征对Gini减少量的边际贡献,0.320.28,故A正确。
5.【单选】在Tableau中创建“月度销售趋势”折线图时,发现日期轴出现断档,最可能原因是
A.日期字段被设成“离散”
B.数据缺失某些月份
C.标记类型选为“条形图”
D.未设置双轴
答案:B
解析:源数据缺少对应月份记录,轴自然断开,与字段离散/连续无关。
6.【单选】企业使用SparkSQL计算应收账款余额,语句“SELECTcustomer_id,SUM(balance)FROMreceivablesWHEREdue_date=2023-12-31GROUPBYcustomer_id”在集群上运行缓慢,以下优化措施最有效的是
A.增加executor内存
B.对due_date做分区列
C.将balance字段改为double
D.缓存整张表
答案:B
解析:按due_date分区后,WHERE条件可直接跳过无关分区,减少I/O,效果优于单纯扩容。
7.【单选】在财务异常检测中,若采用孤立森林算法,参数n_estimators=300,sample_size=256,contamination=0.03,其含义分别是
A.树数量、每棵树样本量、异常比例先验
B.树深度、特征抽样比例、异常阈值
C.树数量、特征数量、学习率
D.聚类中心、距离度量、异常比例
答案:A
解析:孤立森林三大核心参数,contamination用于标记异常分数阈值。
8.【单选】某集团用ExcelPowerPivot建立数据模型,事实表行数800万,维度表行数2万,为避免文件臃肿,最佳策略是
A.把维度表导入PowerBIService
B.使用ODBC连接,不导入数据
C.仅创建关系,不加载维度表到模型
D.将维度表设为“直连模式”
答案:B
解析:ODBC直连让数据留在数据库端,Excel端仅保存连接字符串与元数据,体积最小。
9.【单选】在Python中,使用statsmodels进行多元线性回归,得到VIF值均大于10,应优先
A.删除VIF最大的一项
B.增加样本量
C.标准化系数
D.改用岭回归
答案:A
解析:VIF10表明严重共线,先剔除冗余变量,再视情况使用正则化。
10.【单选】下列关于财务数据仓库“星型模式”描述错误的是
A.事实表包含外键与可度量数值
B.维度表通常宽且冗余
C.查询性能优于雪花模式
D.维度表必须满足第三范式
答案:D
解析:星型模式故意反范式化,把维度表拉宽,减少关联次数,提升读取
原创力文档


文档评论(0)