- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向中药新药研发的语义搜索系统
【摘要】 为解决中药新药研发中的信息集成和检索问题,设计并实现了语义搜索系统TCMSearch。为实现分布式、异构数据库的语义集成和一致性访问,提出语义视图,来定义关系型数据库与领域本体之间的模式映射。该系统根据关系型数据库的语义视图,将用户提出的语义查询重写为结构查询语言(SQL)查询,再分派给各个关系型数据库,最终将查询结果进行语义封装。它还基于本体构建文本内容的语义索引,从而实现了基于概念的内容检索。这些本体驱动的方法,使该系统与关键词搜索系统相比,具有更高的查准率与查全率。该系统已成功部署,它基于一个大型中药领域本体,通过Web方式为中药领域专家提供智能搜索服务。
【关键词】 语义Web; 语义搜索; 信息检索; 中医药
中药新药研发是中医药现代化工程中的重要组成部分。它旨在结合中华传统医药学与现代医药学的方法,分析中草药的药理作用、功效和化学成分等特征,并据此研制疗效更好、毒副作用更小的新药。作为一个知识密集型领域,中药新药研发对信息检索技术具有迫切的需求。在中医药信息化的建设中,积累了包括基础理论、中药和方剂、中药化学成分、以及临床试验等方面的信息资源[1],并建立了一系列的数据库查询和文本搜索系统。然而,现有系统存在两个主要问题:一是无法实现分布式、异构信息资源在不同机构和专家之间的充分共享,造成信息孤岛现象,二是基于关键词的搜索系统[2],无法利用各种信息资源之间的语义关联,来实现基于内容的文本检索。针对上述问题,提出通过构建领域本体来定义领域概念之间的语义关联[3],使用语义Web技术解决异构数据集成和文本信息抽取等技术问题[3-4],从而面向该领域提供效果更好的智能搜索服务。
1 引言
语义Web是一个去中心化的互联信息空间,它基于本体提供机器可理解的智能数据资源,从而支持大量智能代理进行协作式问题求解和知识发现[3-4]。语义搜索(Semantic Search)是建立在语义Web上的智能应用[5-6],它将用户需求表示为语义查询,以本体驱动的方式在Web环境中检索语义相关的信息资源。相关文献中报告的语义搜索系统,采用了数据库的语义集成[7-8]、语义信息抽取[9]、语义索引[9]、智能语义查询处理[10]、语义关联发现与评级[11]、以及语义资源排序等创新性方法[6],提高了检索结果的相关性和用户满意度[9]。语义搜索技术特别适用于领域概念模型相对复杂的生物医学应用[12-13]。例如,文献[14]提供了一个面向医学领域,基于语义关联和语义排序等技术实现的医学知识产权搜索系统;文献[8]提供了一个面向药物发现和安全性应用的数据库集成和综合查询系统。然而,这些系统都集中于西方医药领域,而未涉及到中医药领域。
为填补上述空白,提出了一个面向中药新药研发的语义搜索系统TCMSearch,它旨在利用一系列本体驱动的方法,来解决中医药信息检索中面临的问题。针对中医药领域信息的形式多样、管理分散、概念丰富和模式复杂等特点,提出在信息的语义提取、语义互联和语义融合的基础上,提供智能检索服务的设计思路。从功能角度分析,它属于一种混合型的搜索系统,融合了2类语义搜索系统的技术特征:(1)通过对结构性数据的自动浏览、注册、索引和评级,来支持各种智能查询应用[6-7,10];(2)基于本体对文本内容进行语义标注,并建立语义索引,从而提高文本搜索的质量[5,9,13]。该系统的技术贡献主要有3点:(1)针对结构性信息,提出一种基于语义视图的查询重写方法,来支持分布式、异构数据库的语义集成和统一查询;(2)针对文本信息,提出一种语义索引的构建方法,该方法基于本体从文本中提取概念实体和语义关联,利用基于语义图的索引结构加以维护,从而支持各种形式的文本内容检索;(3)设计并实现了多样化的智能搜索服务,包括基于内容的搜索、智能语义查询、语义图浏览、相关概念推荐、按主题的信息综合等,使得用户可以围绕一个领域主题来进行高效而全面的信息检索。
2 系统的基本原理
当前Web可视为由互相链接的信息资源(即记录)所构成的图,而语义Web则是由互相联系的事物所构成的图。“文档图(Graph of Documents)”的节点代表各种记录,边代表记录之间的引用关系,该模型反映了信息的实际存储和互联的情况,这是信息技术人员所关心的;“事物图(Graph of Things)”的节点代表各种事物,而边代表语义关联,该模型反映领域事物之间错综复杂的逻辑关系,这是领域专家所关心的。语义搜索的作用,就是实现“文档图”和“事物图”之间的相互映射,语义映射过程包括3个主要任务:(1)词汇-概念映射:领域专家可能用不同的词汇表达同一概念,或用同一词汇表达不同概念,所以词汇和概念
您可能关注的文档
最近下载
- 第5课+运动塑造更强大脑+课件 2025-2026学年人教版(2024)初中体育与健康八年级全一册.pptx VIP
- YjS现代文学30年第三章.ppt VIP
- 鸿门宴精品说课课件.pptx
- 《传感器技术与应用》课程思政教学案例(一等奖).docx VIP
- 现代文学 30年代散文.ppt VIP
- 中职英语(高教社2021)基础模块2Unit 1 Travel教案.pdf VIP
- 【党纪学习教育】2025年党纪学习教育应知应会知识测试题(附答案).docx VIP
- 药物性牙龈增生 (1)PPT课件.pptx VIP
- 现代文学30′思潮与运动.ppt VIP
- 《GBT3280-2015-不锈钢冷轧钢板和钢带》.pdf
文档评论(0)