20秋广东开放大学数据采集与管理行成性考核真题试题参考答案资料.pdfVIP

下载本文档

36
0
约2.62万字
约 90页
2020-07-14 发布于广东
举报
版权申诉

20秋广东开放大学数据采集与管理行成性考核真题试题参考答案资料.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

百年教育职业培训中心：/ 广东开放大学终结性考核参考资料百年教育职业培训中心编制百年教育职业培训中心：/ 选择题题目：通过 HTTP 或者 HTTPS 协议请求的资源由作( )来标识。百年教育职业培训中心：/ 答案： A、HTML B、URL C、TCP D、 FTP 题目：追求高数据质量是对大数据的一项重要要求，要消除某些数据的不可预测性，去掉一些“杂乱”的“脏”数据，就涉及到( )技术。答案： A、数据采集 B、数据统计 C、数据清洗 D、数据预测题目：网络数据采集一般是通过（）或网站公开API 等方式从网站上获取数据信息。答案： A、网络爬虫 B、网站日志 C、HTTP D、表单百年教育职业培训中心：/ 题目：一次 HTTP 由（）组成。答案： A、一次请求 B、一次响应 C、一次请求和一次响应 D、两次请求题目：单选在 HTTP 请求中，通过（）方法发送的表单数据，会放在URL 之后，以?分割 URL 和传输数据，参数之间以相连，可能会造成信息泄露问题。答案： A、GET B、 POST C、 PUT D、 CONNECT 题目： HTTP 请求头中（）域的内容包含发出请求的用户信息，例如使用的客户端名称和版本号等。百年教育职业培训中心：/ 答案： A、 Host B、 Referer C、User-Agent D、Content-Length 题目：发送了一个 HTTP 请求后，客户端收到一个 200 的响应，这表示（）。答案： A、拒绝访问 B、登录失败 C、重定向到其他 URL D、请求成功题目：单选如果要采集指定的数据，则需要使用到（），又称主题网络爬虫，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。答案： A、增量式网络爬虫 B、聚焦网络爬虫 C、DeepWeb 爬虫 D、全网爬虫百年教育职业培训中心：/ 题目：单选（）的搜索策略是指按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止，比较适合垂直搜索或站内搜索。答案： A、广度优先 B、深度优先 C、基于目标特征 D、基于领域题目：单选在使用 Java 实现网络爬虫时，由于 InputStream 类型默认是字节流，无法处理中文，将会出现乱码。要解决中文乱码的问题，需将其转换为（），这样就可以读取中文。答案： A、无符号数字 B、 UNICODE 编码 C、字节流 D、字符流题目：在正则表达式中\d 匹配（）百年教育职业培训中心：/ 答案： A、数字 B、字母、数字、下划线 C、任意字符 D、转义字符题目：在正则表达式中 ? 匹配（）答案： A、字符出现0 次以上 B、字符出现一次以上 C、字符出现 0 次或 1 次 D、字符出现 1 次题目：使用正则表达式时，使用（）设置匹配规则。答案： A、Matcher B、 Pattern C、 find D、group 百年教育职业培训中心：/ 题目：单选因数据库本身限制，在采集海量数据时存在性能瓶颈，因此海量数据建议用（）的方式保存，也方便与大数据底层交互。答案： A、文本 B、图像 C、数字 D、记录题目：以下哪些是 Matcher 类的方法（）答案： A、start() B、end() C、 find() D、group() 题目：在整站采集时，一般从源地址出发，使用（）算法实现。答案：百年教育职业培训中心：/ A、差分 B、线性 C、分治 D、递归题目：整站采集的步骤一般是（）答案： A、匹配 href 连接地址；与原本地址拼接；读取网页中的 A 标签；找到关联网页并爬取 B、读取网页中的 A 标签；匹配 href 连接地址；与原本地址拼接；找到关联网页并爬取 C、找到关联网页并爬取；读取网页中的 A 标签；与原本地址拼接；匹配 href 连接地址 D、找到关联网页并爬取；与原本地址拼接；匹配 href 连接地址；读取网页中的A 标签题目：保存采集的数据的方式有（）答案： A、文本 B