文化旅游大数据建设 第2部分:数据预处理.docxVIP

  • 0
  • 0
  • 约3.5千字
  • 约 7页
  • 2026-02-08 发布于上海
  • 举报

文化旅游大数据建设 第2部分:数据预处理.docx

PAGE3

文化旅游大数据建设第2部分:数据预处理

1范围

本文件规定了文化旅游大数据建设中数据预处理的术语和定义、基本要求、预处理结果要求。

本文件适用于文化旅游大数据的预处理过程。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T35295-2017信息技术大数据术语

GB/T35589-2017信息技术大数据技术参考模型

GB/T36344-2018《信息技术数据质量评价指标》

GB/T38548.3-2020内容资源数字化加工第3部分:加工规格

3术语和定义

下列术语和定义适用于本文件。

3.1

数据

信息的可再解释的形式化表示,以适用于通信、解释或处理。

注:可以通过人工或自动手段处理数据。

[来源:GB/T35295-2017,2.2.1]

3.2

脏数据

脏数据是指对实际业务无意义、格式非法、编码不规范、业务逻辑不清晰的数据,主要包括残缺数据、噪声数据、不一致数据、重复数据。

3.3

数据预处理

包括数据验证、清洗、标准化、格式化和存储。

[来源:GB/T35589-20177.3.3]

3.4

数据质量

在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。

[来源:GB/T36344-20182.3]

3.5

数据集

具有一定主题,可以标识并可以被计算机处理的数据集合。

[来源:GB/T36344-20182.6]

4要求

4.1基本要求

预处理是在采集到多个维度、多个来源、多种结构的数据之后,按照文化旅游大数据建设的数据标准要求,进行审查校验、数据清洗、错误修复、格式规范化。

4.2数据审查和校验

4.2.1完整性

数据信息是否存在缺失的状况;

4.2.2准确性

数据记录的信息是否存在异常或错误;

4.2.3一致性

数据是否遵循了统一的规范,数据集合是否保持了统一的格式;

4.2.4简洁性

是否具有核心的本质属性,是否存有冗余;

4.2.5适用性

数据的质量能否满足入库的需要。

4.3数据清洗

采集到的文化旅游数据,必须清洗去除“脏数据”,保证数据格式和内容的准确性和一致性。

4.3.1缺失值处理要求

根据业务规则,使用算法工具检测数据集,对缺失的数据进行统计和识别;

过滤或删除无用途的缺失值;

利用插值法、均值法、中位数法等计算结果,填充并补全业务需要数据的缺失值。

4.3.2重复值处理要求

根据业务规则,使用算法工具检测数据集,识别重复数据;

存在完全相同的重复数据时,直接删除多余的重复项,仅保留一条记录;

重复数据中包含不同的信息时,根据数据统一性约束要求,合并成一条数据。

4.3.3异常值处理要求

通过统计方法或聚类方法等学习模型检测并识别数据的异常值,如超出预定范围的数值、逻辑错误的数据等;

异常值为非关键数据时,直接删除,删除前备份;

异常值为关键重要数据时,根据业务规则采用固定值、均值、中位数、众数等方法进行修正替换;

无法修正的关键重要数据,对异常值进行明确标记。

4.4数据错误修复要求

4.4.1数据补缺

对空数据、缺失数据可采用插值法、均值进行填充、补缺,无法处理的做标记;

4.4.2数据替换

对无效评论、重复数据或异常值等无效数据进行删除或替换;

4.4.3主键约束

通过建立主键约束,对非法数据进行数据替换或重新处理.

4.5数据格式规范化要求

通过预设的规则对采集的数据集进行扫描,判断数据格式,识别出格式不一致的数据;

利用文化旅游大数据的业务逻辑,对不符合格式要求的数据进行转换和替换;

对非结构化文化旅游资源进行数字化加工的规范格式与要求:

文本的数字化加工格式与要求应符合GB/T38548.3-2020第4章的要求;

图片的数字化加工格式与要求应符合GB/T38548.3-2020第5章的要求;

公式/表格的数字化加工格式与要求应符合GB/T38548.3-2020第6章的要求;

音频的数字化加工格式与要求应符合GB/T38548.3-2020第7章的要求;

视频的数字化加工格式与要求应符合GB/T38548.3-2020第8章的要求。

4.6数据预处理方法

本标准规定的数据预处理方法见附录A。

5预处理结果要求

5.1规范性

数据标准、数据模型、业务规则、安全规范应统一。

5.2完整性

数据集合中的数据元素、数据记录应符合文化旅游大数据的业务要求,包含足够的数据响应各种查询和计算。

5.3准确性

数据内容、数据格式、数据唯一性的表述、表达应准确。

5.4一致性

相同数据的一致性应符合以下要求:

a)同一个数

文档评论(0)

1亿VIP精品文档

相关文档