- 2
- 0
- 约4.91千字
- 约 9页
- 2026-02-08 发布于上海
- 举报
PAGE3
文化旅游大数据建设第1部分:数据采集
范围
本文件规定了文化旅游大数据建设中数据采集的术语和定义、基本要求、数据采集方式、数据接口要求、文化旅游资源元数据格式、数据采集技术。
本文件适用于文化旅游行业大数据的采集过程。
规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T18391.1-2009信息技术元数据注册系统(MDR)第1部分:框架
GB/T35295-2017信息技术大数据术语
GB/T36345-2018信息技术通用数据导入接口
GB/T38548.4-2020内容资源数字化加工第4部分:元数据
WH/T99.1-2023非物质文化遗产数字化保护数字资源采集和著录第1部分:总则
LB/T079-2020旅游基础信息资源规范
术语和定义
下列术语和定义适用于本文件。
3.1
数据资源
数据资源是以电子化形式记录和保存、可机器读取、可供社会化再利用的数据集合。通常包括文本、图像、声音、动画、视频等多种数字形式。
3.2
数据采集
对数据资源进行收集的方法与过程。主要指从物联网和智能设备、在线系统、离线系统、内网平台和互联网平台等获取各种类型的结构化及非结构化海量数据的过程。
3.3
文化数据资源
民间文学、传统音乐、传统舞蹈、传统戏剧、曲艺、传统体育、游艺与杂技、传统美术、传统技艺和民俗等具有数字化载体形式的资源。
3.4
旅游数据资源
在旅游领域的出行、住宿、餐饮、游览、购物、娱乐、代理服务和公共服务等活动的稳定信息并具有数字化载体形式的资源。
3.5
结构化数据
一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以便用关系模型予以有效描述。
[来源:GB/T35295-2017,2.2.13]。
3.6
非结构化数据
不具有预定义模型或未以预定义方式组织的数据。
[来源:GB/T35295-2017,2.1.25]。
3.7
动态数据
处于活动状态,其典型特征表现为大数据的速度和多变性特征的数据。
注:在网络上传输或暂时驻留于计算机内存中供读取或更新。以实时或近实时方式进行处理和分析的数据。
[来源:GB/T35295-2017,2.1.36]。
3.8
静态数据
处于静正状态,其典型特征表现为大数据的体量和多样性特征的数据。
注:通常是存储于物理媒体中的数据。
[来源:GB/T35295-2017,2.1.37]。
3.9
物联网
通过感知设备,按照约定协议,连接物、人、系统和信息资源,实现对物理和虚拟世界的信息进行处理并作出反应的智能服务系统。
注:物即物理实体。
[来源:GB/T35295-2017,2.2.11]。
3.10
元数据
定义和描述其他数据的数据。
[来源:GB/T18391.1—2009,3.2.16]
3.11
ETL
将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。
采集内容
4.1文化数据资源采集内容
文化数据资源应符合WH/T99.1-2023第7.2的规定,包括民间文学、传统音乐、传统舞蹈、传统戏剧、曲艺、传统体育、游艺与杂技、传统美术、传统技艺、民俗9个门类的数字文本、数字图片、数字音频和数字视频。本标准规定的采集内容见附录A。
4.2旅游数据资源采集内容
旅游数据资源的分类应符合LB/T079-2020第4.4条的规定,包括旅游出行、旅游住宿、旅游餐饮、旅游游览、旅游购物、旅游娱乐、旅游代理服务和旅游公共服务8种类型的数字文本、数字图片、数字音频和数字视频。本标准规定的采集内容见附录B。
数据采集方式
5.1要求
文化旅游大数据根据数据来源、时间、地点、数据类型、数据格式、数据量等具体需求和应用场景来确定数据采集方式。
5.2方式
5.2.1全量采集
一次性提取所有数据,适用于数据量较小或在特定时间内静态且完整的数据。
5.2.2增量采集
只提取自上次提取以来发生变化的数据,适用于数据量较大或需要频繁更新的动态数据。
5.2.3实时采集
持续监控数据源的变化,实时采集新产生的动态数据。适用于时间戳、快照、触发器、日志等变更数据采集方式。
5.2.4API采集
通过调用外部系统的API接口获取数据,适用于不同系统集成应用的场景。
数据接口要求
数据接口应符合GB/T36345-2018第4章的要求。
文化旅游资源元数据格式
文化旅游资源的文本、图片、表格、公式、音频、视频等要素元数据格式应按照GB/T38548.4-2020第6章
原创力文档

文档评论(0)