- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于无监督学习中医古籍文献本体构建方法研究
基于无监督学习中医古籍文献本体构建方法研究
在领域本体的研究与应用中,领域本体模型的开发已不再是一个简单的项目开发,其重要性使之成为了一个系统级的架构,因此,在该领域的专家和学者的研究基础之上,提出了使用机器学习中的无监督学习方法实现对中医古籍文献的本体构建思路,设计出了基于无监督学习的领域本体构建方法。
【关键词】领域本体构建 中医古籍文献 机器学习 无监督学习 知识复用
1 引言
领域本体(Domain ontology)是近年来计算机及相关领域普遍关注的一个研究热点,作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已被广泛应用于知识工程、系统建模、信息处理、数字图书馆、自然语言理解、语义Web等领域之中。领域本体是能够用于描述指定领域知识的一种专门本体,它给出了领域实体概念及相互关系领域活动以及该领域所具有的特征和规律的一种形式化描述,从而将人对现实世界的认识抽象出来,形成一个概念。
2 中医领域概念的获取
2.1 中医症状名的识别边界以及句子成分划分
一般而言,一篇文本是由一个或多个段落组成,每个段落由一句或多个句子组成,而每一个句子又是由多个词构成。结合本文研究的对象,针对中医古籍文献中的内容,以词作为计算文本组成成分的最小单位,需要将文本内容划分为词的集合。由于中医古籍中的内容可能存在标点符号使用不规范的现象,因此将“。”,“.”,“。。”,“?”,“!”,“!!”,“!!!”,“~”,“……”作为一个句子的边界符号,将句子成分划分完成以后,接下来就可以进行文本中的词性标注工作。
2.2 文本词性标注
边界识别后常用的文本内容标注方法为:“BIO”Chunking。其中,B: Beginning component of a symptom name,I: Inside component of a symptom name,O: Outside component of a symptom name。
作为文本内容标注的最小化分粒度,单个字可以最大程度保留原文本的内容,保证获取到足够有用的知识进行领域概念的获取。
2.3 本体中的词按标签进行分类
将加标签的过程直接看成对每个包含在临床记录中的字按标签类别分类的过程。这时需要用到统计分析中的判别模型,即条件随机场。
定义1. 条件随机场CRF,Conditional Random Field:条件随机场,一种机器学习技术(模型)。
CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景。
3 本体类属性分析
3.1 定义类的属性
本体类的属性有很多种,在特定领域需要用到指定的类属性,但通常情况下,仅仅通过类本身又不足以确切的描述一个领域。因此,一旦定义好了类就要具体描述这个类的内部结构。事先从创建的概念中选择了类,大部分剩下的概念可能成为这些类的属性。在本体模型,属性往往具有以下一些特征:a.本质特征,如颜色、运行速度。b.外来特征,如产地、厂商。c.组成部分,如材料。d.个体间关系。当子类继承父类所有的属性时,属性应当被尽可能定义在通用类中,保证在后期本体的复用性。
定义属性值:属性值既可以是一个数值,也可以是一个类。我们将属性值视为一个类,称为属性类,属性类也有属性,通过这些属性来说明取值类型、值个数及有关的值的其他特征。
3.2 无监督学习技术分析
聚类是典型的无监督学习,也被认为是最常用的基于无监督学习的数据分析技术之一,它有很长的历史,并且几乎在所有领域中都被运用到,例如,医学、心理学、植物学、社会学、生物学、考古学、市场营销学、保险和图书管理学等。近几年,由于在线文档和互联网的飞速发展,非结构化数据的聚类也开始成为一个越来越重要的任务,尤其是在Web使用信息挖掘中也是十分有用。鉴于互联网中每日产生的庞大数据量,将无监督学习应用在领域本体构建中能够有效解决数据增长带来的本体维护问题,为后期本体的自动构建提供技术保障。
4 结语
本体是某一领域共享的、概念化[5] ( conceptualization) 、形式化表示的知识体系。第二代互联网的发展需要大量的领域本体作为支撑。目前,领域本体主要依赖手工构建,需要耗费大量的人力,因此本体的构建成为第二代互联网发展的瓶颈。创建领域本体的起点可产生自不同情况。可以是从抓取开始,也可以从已存在本体开始,还可从数据源文集开始,或者是后两个方法的组合。创建本体的自动化程度也是不同的,从完全的人工、半自动化到全自动化。当前,采用聚类的方法只能实现受限条件下的轻量级本体的构建。领域主体的构建是一项极其艰巨的任务,如何应用知
您可能关注的文档
最近下载
- 一种基于压力监测的输液港自动封堵装置.pdf VIP
- 菠菜种植课件PPT.pptx VIP
- 紫色复古风《莴苣姑娘》童话故事PPT模板.pptx VIP
- 盐雾试验报告-.docx VIP
- [青海]水电站厂房机电设备安装工程量清单及招标文件.doc VIP
- 拓展低空经济应用场景实施方案.pptx VIP
- 第5课 中国古代官员的选拔与管理 课件(共45张PPT) 统编版高中历史选择性必修1(内嵌视频+音频).pptx VIP
- 时间序列分析—基于Python王燕习题答案.pdf VIP
- 百度AI营销认证初级考试理论知识题库(628题).docx
- 2025年电力安全工作规程(发电厂和变电站电气部分)题库(294道) .pdf VIP
文档评论(0)