20秋广东开放大学数据采集与管理行成性考核真题试题参考答案资料.pdfVIP

20秋广东开放大学数据采集与管理行成性考核真题试题参考答案资料.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
百年教育职业培训中心:/ 广东开放大学 终结性考核 参考资料 百年教育职业培训中心编制 百年教育职业培训中心:/ 选择题 题目: 通过 HTTP 或者 HTTPS 协议请求的资源由作( )来标识。 百年教育职业培训中心:/ 答案: A、HTML B、URL C、TCP D、 FTP 题目: 追求高数据质量是对大数据的一项重要要求,要消除某些数据的不可预测性,去掉一些“杂乱”的“脏”数据, 就涉及到( )技术。 答案: A、数据采集 B、 数据统计 C、数据清洗 D、 数据预测 题目: 网络数据采集一般是通过( )或网站公开API 等方式从网站上获取数据信息。 答案: A、网络爬虫 B、 网站日志 C、HTTP D、 表单 百年教育职业培训中心:/ 题目: 一次 HTTP 由( )组成。 答案: A、 一次请求 B、 一次响应 C、 一次请求和一次响应 D、 两次请求 题目: 单选 在 HTTP 请求中,通过( )方法发送的表单数据,会放在URL 之后,以?分割 URL 和传输数据,参数之 间以相连,可能会造成信息泄露问题。 答案: A、GET B、 POST C、 PUT D、 CONNECT 题目: HTTP 请求头中( )域的内容包含发出请求的用户信息,例如使用的客户端名称和版本号等。 百年教育职业培训中心:/ 答案: A、 Host B、 Referer C、User-Agent D、Content-Length 题目: 发送了一个 HTTP 请求后,客户端收到一个 200 的响应,这表示( )。 答案: A、拒绝访问 B、 登录失败 C、重定向到其他 URL D、 请求成功 题目: 单选 如果要采集指定的数据,则需要使用到( ),又称主题网络爬虫,是指选择性地爬行那些与预先定义好 的主题相关页面的网络爬虫。 答案: A、增量式网络爬虫 B、 聚焦网络爬虫 C、DeepWeb 爬虫 D、 全网爬虫 百年教育职业培训中心:/ 题目: 单选 ( )的搜索策略是指按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止,比较 适合垂直搜索或站内搜索。 答案: A、 广度优先 B、深度优先 C、基于目标特征 D、 基于领域 题目: 单选 在使用 Java 实现网络爬虫时,由于 InputStream 类型默认是字节流,无法处理中文,将会出现乱码。要解 决中文乱码的问题,需将其转换为( ),这样就可以读取中文。 答案: A、 无符号数字 B、 UNICODE 编码 C、字节流 D、字符流 题目: 在正则表达式中\d 匹配( ) 百年教育职业培训中心:/ 答案: A、数字 B、 字母、数字、下划线 C、任意字符 D、转义字符 题目: 在正则表达式中 ? 匹配( ) 答案: A、字符出现0 次以上 B、字符出现一次以上 C、字符出现 0 次或 1 次 D、 字符出现 1 次 题目: 使用正则表达式时,使用( )设置匹配规则。 答案: A、Matcher B、 Pattern C、 find D、group 百年教育职业培训中心:/ 题目: 单选 因数据库本身限制,在采集海量数据时存在性能瓶颈,因此海量数据建议用( )的方式保存,也方便与 大数据底层交互。 答案: A、文本 B、图像 C、 数字 D、 记录 题目: 以下哪些是 Matcher 类的方法( ) 答案: A、start() B、end() C、 find() D、group() 题目: 在整站采集时,一般从源地址出发,使用( )算法实现。 答案: 百年教育职业培训中心:/ A、差分 B、 线性 C、分治 D、递归 题目: 整站采集的步骤一般是( ) 答案: A、匹配 href 连接地址;与原本地址拼接;读取网页中的 A 标签;找到关 联网页并爬取 B、读取网页中的 A 标签;匹配 href 连接地址;与原本地址拼接;找到关 联网页并爬取 C、 找到关联网页并爬取;读取网页中的 A 标签;与原本地址拼接;匹配 href 连接地址 D、找到关联网页并爬取;与原本地址拼接;匹配 href 连接地址;读取网页 中的A 标签 题目: 保存采集的数据的方式有( ) 答案: A、文本 B

您可能关注的文档

文档评论(0)

153****1683 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档