《文化旅游大数据建设 第2部分:数据预处理》.docxVIP

  • 1
  • 0
  • 约4.72千字
  • 约 10页
  • 2026-02-09 发布于河南
  • 举报

《文化旅游大数据建设 第2部分:数据预处理》.docx

ICS×××××××

CCS?×××

DB13

河北省地方标准

DB13/TFORMTEXT××××—2025

文化旅游大数据建设

第2部分:数据预处理

(征求意见稿)

FORMTEXT××××-FORMTEXT××-FORMTEXT××发布

FORMTEXT××××-FORMTEXT××-FORMTEXT××实施

河北省市场监督管理局发布

DB13/T××××—2025

PAGE3

目次

TOC\o1-2\h\z\u前??言 II

1范围 1

2规范性引用文件 1

3术语和定义 1

4基本要求 2

5预处理结果要求 3

附录A(资料性)数据预处理方法 4

参考文献 6

前??言

DB13/T××××-2025《文化旅游大数据建设》分为以下4个部分:

——第1部分:数据采集

——第2部分:数据预处理;

——第3部分:数据存储与管理;

——第4部分:数据分析与可视化。

本部分为DB/T××××—2025《文化旅游大数据建设》的第2部分。

本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。

本文件由河北省文化和旅游厅提出并归口。

本文件起草单位:河北民族师范学院

本文件主要起草人:杨宏、周长会、纪佳琪、李建峰、姜立新、林雪梅、房健、金疆、黄大伟、张海鹏、鞠安琪

本文件于2025年*月首次发布。

文化旅游大数据建设第2部分:数据预处理

1范围

本文件规定了文化旅游大数据建设中数据预处理的术语和定义、基本要求、预处理结果要求。

本文件适用于文化旅游大数据的预处理过程。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T35295-2017信息技术大数据术语

GB/T35589-2017信息技术大数据技术参考模型

GB/T36344-2018《信息技术数据质量评价指标》

GB/T38548.3-2020内容资源数字化加工第3部分:加工规格

3术语和定义

下列术语和定义适用于本文件。

3.1

数据

信息的可再解释的形式化表示,以适用于通信、解释或处理。

注:可以通过人工或自动手段处理数据。

[来源:GB/T35295-2017,2.2.1]

3.2

脏数据

脏数据是指对实际业务无意义、格式非法、编码不规范、业务逻辑不清晰的数据,主要包括残缺数据、噪声数据、不一致数据、重复数据。

3.3

数据预处理

包括数据验证、清洗、标准化、格式化和存储。

[来源:GB/T35589-20177.3.3]

3.4

数据质量

在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。

[来源:GB/T36344-20182.3]

3.5

数据集

具有一定主题,可以标识并可以被计算机处理的数据集合。

[来源:GB/T36344-20182.6]

4要求

4.1基本要求

预处理是在采集到多个维度、多个来源、多种结构的数据之后,按照文化旅游大数据建设的数据标准要求,进行审查校验、数据清洗、错误修复、格式规范化。

4.2数据审查和校验

4.2.1完整性

数据信息是否存在缺失的状况;

4.2.2准确性

数据记录的信息是否存在异常或错误;

4.2.3一致性

数据是否遵循了统一的规范,数据集合是否保持了统一的格式;

4.2.4简洁性

是否具有核心的本质属性,是否存有冗余;

4.2.5适用性

数据的质量能否满足入库的需要。

4.3数据清洗

采集到的文化旅游数据,必须清洗去除“脏数据”,保证数据格式和内容的准确性和一致性。

4.3.1缺失值处理要求

根据业务规则,使用算法工具检测数据集,对缺失的数据进行统计和识别;

过滤或删除无用途的缺失值;

利用插值法、均值法、中位数法等计算结果,填充并补全业务需要数据的缺失值。

4.3.2重复值处理要求

根据业务规则,使用算法工具检测数据集,识别重复数据;

存在完全相同的重复数据时,直接删除多余的重复项,仅保留一条记录;

重复数据中包含不同的信息时,根据数据统一性约束要求,合并成一条数据。

4.3.3异常值处理要求

通过统计方法或聚类方法等学习模型检测并识别数据的异常值,如超出预定范围的数值、逻辑错误的数据等;

异常值为非关键数据时,直接删除,删除前备份;

异常值为关键重要数据时,根据业务规则采用固定值、均值、中位数、众数等方法进行修正替换;

无法修正的关键重要数据,对异常值进行明确标记。

4.4

文档评论(0)

1亿VIP精品文档

相关文档