数据采集、传输、同步、集成、整合、抓取、提取、迁移、收集、抽取等概念各是什么?.pdfVIP

  • 8
  • 0
  • 约1.2千字
  • 约 1页
  • 2024-01-28 发布于北京
  • 举报

数据采集、传输、同步、集成、整合、抓取、提取、迁移、收集、抽取等概念各是什么?.pdf

数据采集、传输、同步、集成、整合、抓取、提取、迁移、收集、抽取等概念各

是什么?

数据采集:⼜称数据获取是利⽤⼯具或者技术从系统外部获取数据并输⼊到系统内部的⼀个过程。

数据传输:数据传输是按照⼀定的规程通过⼀条或多条数据链路将数据从数据源传输到数据终端它的主要作⽤是实现点与点之间的信

息传输和交换。

数据同步:数据同步是通过直连、同步⽂件或⽇志解析的⽅式将不同物理位置的⽬标数据系统中的数据内容进⾏更新使之与源数据系统

中的数据相同的过程。

数据集成:数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中从⽽为企业提供全⾯的数据共享。

数据整合:数据整合是把不同数据源的数据收集、整理、清洗转换后加载到⼀个新的数据源为数据消费者提供统⼀数据视图的数据集成

⽅式。

数据抓取:也称为⽹络数据提取或⽹页爬取是指从⽹上获取⾮结构化数据并将获取到的数据转换为结构化的数据最终可以将数据存储

到本地计算机或数据库的⼀种技术。

抓包:是指将⽹络传输发送与接收的数据包进⾏截获、重发、编辑、转存等操作也⽤来检查⽹络安全。抓包也经常被⽤来进⾏数据截取。

数据提取:是指从原始数据中抽取出感兴趣数据的过程。

数据迁移:数据迁移是将某⼀存储系统中的很少使⽤或不⽤的⽂件或数据转移到新的存储系统的存档过程。

数据收集:是指根据系统⾃⾝的需求和⽤户的需要收集相关的数据。

数据抽取:是指从数据源中抽取数据的过程。

以上的名词区别在于其使⽤的场景但是⼤部分情况下这些名词都有⼀定的共⽤性。⽐如从Mysql中将数据转移⾄hive中如果是将hive

中的数据覆盖掉这个过程叫做数据同步。如果仅仅不考虑是覆盖还是追加等操作仅考虑这件事情则为数据抽取。如果mysql作为外部

系统(业务上的定位)那么也可以称为数据采集。数据在转移的过程中处于ing状态的话叫做数据传输。如果采集的系统较多⽐如有

多个Mysql的库也可以称为数据集成。如果对数据还进⾏了⼀些etl处理使之有多表的聚合那么也可以称为数据整合。在整合过程中

对部分字段或维度有⼀定的取舍叫做数据提取。如果是在还未采集过来就先设定好采集的条件使采集到Hive中的数据和Mysql的长得不

⼀样叫数据收集。如果是因为业务原因mysql不⽤了因此将所有数据给转到hive⾥叫数据迁移。如果数据是从⽹上获取到的叫做

数据抓取也叫⽹络爬⾍。抓包是⼀个另外的概念是指数据⽹络传输过程中进⾏拦截将拦截下来的信息拿出来看叫数据抓包。

done。

⼤数据扯淡交流群:808565587没有培训机构没有杂七杂⼋纯粹的交流群只有爱与同⾏交流的你。欢迎⼤家。

文档评论(0)

1亿VIP精品文档

相关文档