2025年AWS认证通过AWSGlue处理和转换CUR数据专题试卷及解析.pdfVIP

2025年AWS认证通过AWSGlue处理和转换CUR数据专题试卷及解析.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年AWS认证通过AWSGLUE处理和转换CUR数据专题试卷及解析1

2025年AWS认证通过AWSGlue处理和转换CUR数

据专题试卷及解析

2025年AWS认证通过AWSGlue处理和转换CUR数据专题试卷及解析

第一部分:单项选择题(共10题,每题2分)

1、在AWSGlue中,当处理AWSCostandUsageReport(CUR)数据时,最适合

使用的ETL作业类型是什么?

A、SparkStreaming作业

B、PythonShell作业

C、ApacheSpark作业

D、GlueStudio可视化作业

【答案】C

【解析】正确答案是C。ApacheSpark作业最适合处理CUR数据,因为CUR通

常是大型CSV/Parquet文件,需要分布式处理能力。A选项SparkStreaming适用于

实时数据流,不适合批处理CUR;B选项PythonShell作业资源有限,不适合大数据

量;D选项可视化作业虽然方便,但底层仍是Spark作业,C更直接对应技术选型。知

识点:Glue作业类型选择。易错点:误认为可视化作业总是最佳选择。

2、CUR数据中的”lineItem/UsageAmount”字段表示什么?

A、费用金额

B、资源使用量

C、折扣金额

D、账单周期

【答案】B

【解析】正确答案是B。“lineItem/UsageAmount”记录具体资源的使用量(如GB小

时、API调用次数等)。A是”lineItem/BlendedCost”;C是”lineItem/Discount”;D是”

bill/BillingPeriod”。知识点:CUR核心字段含义。易错点:混淆使用量和费用字段。

3、在Glue作业中读取CUR数据时,推荐使用哪种格式以提高性能?

A、CSV

B、JSON

C、Parquet

D、Avro

【答案】C

【解析】正确答案是C。Parquet是列式存储格式,压缩率高且支持谓词下推,适合

分析型查询。CSV是原始格式但性能差;JSON和Avro不如Parquet适合分析场景。

知识点:数据格式选择。易错点:忽视格式对性能的影响。

2025年AWS认证通过AWSGLUE处理和转换CUR数据专题试卷及解析2

4、当CUR数据包含嵌套JSON结构时,Glue中应如何处理?

A、使用flatten函数

B、使用explode函数

C、使用parse_json函数

D、使用get_json_object函数

【答案】B

【解析】正确答案是B。explode函数可将数组/结构体展开为多行,适合处理嵌套

数据。Aflatten用于数组展平;C/D用于JSON解析但无法处理嵌套结构。知识点:嵌

套数据处理。易错点:混淆flatten和explode的使用场景。

5、Glue作业处理CUR时,如何优化S3读取性能?

A、启用S3传输加速

B、使用S3Select

C、设置文件大小128MB

D、启用S3版本控制

【答案】C

【解析】正确答案是C。合理设置文件大小(128256MB)可平衡并行度和开销。A

用于跨区域加速;B适合过滤简单CSV/JSON;D与性能无关。知识点:S3性能优化。

易错点:忽视文件大小对分布式处理的影响。

6、在GlueCatalog中,CUR表的”serde.serialization.last.column.takes.rest”属性作

用是?

A、指定最后列的数据类型

B、允许最后列包含换行符

C、忽略多余列

D、合并最后所有列

【答案】D

【解析】正确答案是D。该属性使最后列吸收所有剩余字段,适合处理列数不一致

的CUR。A/B/C描述错误。知识点:SerDe属性配置。易错点:误解属

您可能关注的文档

文档评论(0)

139****5504 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档