- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Mesh词表和共词分析疾病本体半自动构建方法研究
基于Mesh词表和共词分析疾病本体半自动构建方法研究
〔摘 要〕分析了利用专业词表和共现分析方法相结合半自动构造领域本体构建的方法。利用专业词表抽取概念和等级关系,利用共现分析方法抽取非等级关系。
〔关键词〕本体;半自动构建;Mesh;共现分析
〔中图分类号〕G254.24 〔文献标识码〕A 〔文章编号〕1008-0821(2009)03-0208-04
本体是用来描述某个领域甚至更广范围内的概念以及概念之间的联系,使得这些概念和联系在共享的范围内有着明确惟一的定义,达成一种共识,这样人机就可以进行交流。N.Guarino提出将本体划分为顶级本体(top―level ontology)、领域本体(domain ontology)、任务本体(task ontology)和应用本体(application ontology)。
1 领域本体概述
1.1 领域本体的概念、特征及其发展态势
领域本体是用于描述指定领域知识的一种专门本体。它给出了领域实体概念及相互关系、领域话动以及该领域所具有的特性和规律的一种形式化描述。目前,领域本体模型的研究已经进入实际应用阶段,许多研究领域都建立了自己标准的本体[1]。领域本体的发展非常迅速,不仅得到了广泛的应用,在实际应用中也取得了积极的作用。国外文献中涉及的领域本体,包括化学领域、生物医学领域、地理学领域和其他领域。领域本体的应用展现出涉及学科领域广、更加专业化、针对性更强、涉及多个学科的领域本体增多等特点[2]。
对数字图书馆而言,领域本体在数字图书馆对其知识进行语义层面的组织中扮演着至关重要的角色,领域本体的构建是语义网络环境下数字图书馆知识组织不可或缺的关键步骤。
1.2 领域本体的构建
目前本体构建主要有手工构建、复用已有本体以及自动构建本体3种方法。手工构建领域本体费时费力、花费巨大,且由于手工构建本体尚缺少一套工程化的科学管理流程作为支撑,使得本体的构建主观性太强,可行性和实用性都受到质疑。自动构建本体目前还处于研究阶段,利用机器学习会产生大量的噪音数据,缺乏必要的语义逻辑基础,抽取的概念关系松散且可信度无法得到很好的保障。尽管机器学习应用于本体自动构建有巨大的潜力,但是距离良好的可理解性尚有很大的距离。半自动构建本体是较为理想的模式,其关键技术在于领域概念的获取和领域概念之间关系的获取[3]。
1.2.1 领域本体构建的主要方法
目前主要的领域本体构建方法有TOVE法、METHONTOLOGY法、骨架法、KACTUS工程法、SENSUS法、IDEF5法和斯坦福大学医学院开发的七步法。TOVE法专用于构建TOVE本体,由多伦多大学企业集成实验室研制;METHONTOLOGY法专用于构建化学本体(有关化学元素周期表的本体);骨架法专门用来构建企业本体;KACTUS工程法的目的是要解决技术系统生命周期过程中的知识复用问题;SENSUS是开发用于自然语言处理的SENSUS语言本体的方法路线。IDEF5法开发用于描述和获取企业本体的方法;斯坦福大学医学院开发的七步法,主要用于领域本体的构建。目前大多数领域本体的构建都采用了七步法。
1.2.2 领域本体构建的流程
根据现有的本体构建方法进行总结,本体构建的一般流程如下:(1)明确研究对象和范畴;(2)对该领域的现有本体进行调查和研究,借鉴已有的研究成果;(3)提取核心概念;(4)对概念词进行分类和合并,定义类和类的语义关系,主要包括等级关系和非等级关系;(5)定义函数和公理;(6)创建实例;(7)构建知识库。
1.3 领域本体构建的关键技术
领域本体构建的关键技术包括领域概念的获取和领域概念之间关系的获取。领域本体领域概念获取主要有以下两个途径:①专业词典;②利用自然语言处理技术,直接从全文或者文摘、关键词字段中抽词。领域概念之间的关系主要分为等级关系和相关关系。等级关系获取的方法主要有:①专业词典;②聚类算法;③字面成族;④模式匹配。相关关系获取的主要算法有:①共现统计算法;②关联规则算法;③隐含语义索引;④Hopfield联想算法等[3]。
2 疾病本体的构建
生物学领域涉及比较广,与医学、化学等多个学科多有交叉,相关本体也多是与其他学科相结合,其应用也比较成熟、广泛。近年来在生物医学领域出现的领域本体有:(1)SGDS(Similar genes discovery system),相似基因发现系统;(2)GOHSE系统,是一个支持浏览生物资源的应用程序;(3)FMA(the Foundational Model of Anatomy)是一个生物医学信息学方面的参考本体。(4)OBO(O
原创力文档


文档评论(0)