道地药材图谱检测数据处理 基础信息模型.docxVIP

道地药材图谱检测数据处理 基础信息模型.docx

此“医疗卫生”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

道地药材图谱检测数据处理基础信息模型

1范围

本标准规定了道地药材图谱检测数据处理中所涉及的信息实体及语义关系,用于指导

设计数据驱动的图谱检测和分析系统的底层数据存储结构和信息交互格式。

2规范性引用文件

3术语和定义

下列术语和定义适用于本标准。

;.1道地药材DodiMedicinalMaterials

指经过中医临床长期应用优选出来的,产在特定地域,与其他地区所产同种中药材相比,品质和疗

效更好,且质量稳定,具有较高知名度的中药材。

3.2图谱检测SpectroscopicProfiling

包括质谱及其联用、振动光谱(如拉曼、红外、紫外光谱)及核磁共振谱等检测方式。

3.3本体Ontology

本体(ontology)起源于哲学,指组成现实(reality)的各类实体(entity)。在信息学领域,本体是对目标领域内客观实体的规范化表示。本体实现了计算机系统对于领域知识的一致性“理解”,为构建各

种应用提供基础的语义支撑,是一种信息模型。

3.4实体Entity

客观物理世界的事物在计算机系统中的表征。

4信息模型的核心实体

麻勒有多个匹建D(B甚窦腩CE蛴猊盔杭保存加悯生成顿炯

麻勒

有多个

匹建

D

(

B甚窦腩

C

E

蛴猊

盔杭

保存

加悯

生成

顿炯

A窦腩

额出

+,-

+,-喵

额入

有多个有多个

有多个

额出

mzML,

mzML,JCAMP-DX

獒掠

獒掠

实线箭头表示底层数据库中具体的外键引用,虚线表示外部引用,如URL或资源路径。椭圆表示

实体,文档图标表示外部或中间文件对象。

4.1数据集

“数据集”是多个“图谱”实例的集合。一个数据集的图谱是面向同一检测主题的(例如,分类牛奶品牌和识别特定的地道药材),通过相同的检测模态(拉曼或MALDI-TOF-MS),使用相同的数据预处理

方法(如过滤、平均、基线校准),并具有相同的数据维数(如峰值数)。

“数据集”可以导出为矩阵或表格形式,供主要的科学数据分析平台导入,如MATLAB、R或Python。

在实际的系统操作中,这种中间数据格式更易于驱动整个图谱数据的分析过程。

4.2图谱数据

“图谱”表示一个图谱数据。该数据已经过必要的数据预处理,可以直接用于后续的数据分析。一个图谱对象包含一个X值数组(如,用于拉曼的波数,或用于MALDI-TOF-MS的m/z)和一个可选的y

标签(在有监督数据分析的情况下)。图谱数据是信息模型的核心实体。

每个“图谱”实例可以序列化为第三方标准文件格式,如mzML(MS)或JCAMP-DX。对于第三方仪器系统,如Agilent,Bruker,Horiba,Shimadzu,Thermo,Waters等,这些标准文件格式可以用于交换和共享

图谱数据。

4.3日志

每个“图谱”实例有多个“日志”项,用于追踪数据状态的变化。该实体定义了图谱数据生命周期的几

个阶段,包括生成、预处理、审查、分析和报告。

4.4流水线

“流水线”是一组算法单元组织起来的流程序列。每个“流水线”都针对于特定的数据集和分析目的。一个典型的图谱数据流水线通常包含若干预处理单元(如过滤、归一化、降维)及一个回归器/分类器。流水线在运行时(runtime)环境中被实例为复合模型(如特征选择+逻辑回归、支持向量机或神经网络),并由目标数据集训练。训练后的模型可以持久化到文件中(如MATLAB的.mat文件或python的.pkl文件)。此后,模型文件反序列化后可以加载回运行时环境中,对新样本进行预测分析后,可以生成人可读的报

告和计算机可处理的结构化报告形式,服务于进一步的决策支持。

4.5算法单元

算法单元包括基线漂移去除、平均滤波、特征缩放、特征选择、分类器、回归器等。每个算法单元需提供实现代码或伪代码。不同的算法单元针对不同的数据科学平台和编程语言可以有多种实现。算法工程师既可以直接调用使用现有的库,也可以上传编译后的二进制代码来实现。附录A列举了基本

的算法单元,应内置到相关分析系统中。

5信息模型实体及属性字段定义

5.1数据集

描述:为相同的目的而生成的谱数据集合。具有相同的检测模态(拉曼或MALDI-TOF-MS),采用相同的

数据预处理方法(过滤、平均、识别、基线漂移去除等),具有相同的数据维度。

字段

类型

描述

数据集ID

属性

唯一的ID,主键。

数据集名称

属性

数据集的名称。

数据集检

文档评论(0)

法律咨询 + 关注
实名认证
服务提供商

法律职业资格证、中级金融资格证持证人

法律咨询服务,专业法律知识解答和服务。

版权声明书
用户编号:8027066055000030
领域认证该用户于2023年04月14日上传了法律职业资格证、中级金融资格证

1亿VIP精品文档

相关文档