- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
优秀毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
图二乐思信息采集软件采集的PDF文件
图三采集的数据库生成的搜索引擎
21.本体在生物医学文本知识发现中的应用
中国医科大学医学信息系(110001)张庆‘崔雷
引言
信息技术的飞速发展带来了海量的数据累积。其中很大一部分是文本数据。对海量文本数据进行分析和挖
掘.从中获取有用的知识,已经成为人们关注的热点。但是如何对文本挖掘中的语义信息进行表示和管理,
‘张庆(1983一)女。硕士研究生.研究方向为数据挖掘与知识发现。
.84.
目前缺乏一种系统的方法.而将本体应用到文本挖掘领域,可以为基于语义的文本挖掘提供理论支持。所谓
本体.就是一种概念模型,它支持明确而一致的知识共享并提供知识集成的框架。除了诸如is~a和part—of
关系之外(这些关系在任何领域都存在),本体也包括一些领域特殊的关系,例如has—location、
并约束术语间潜在的解释。正因如此,本体可以用于支持文本信息的自动语义解释(如图1),进而为复杂文
本挖掘提供基础。
表l列出了几种常用的生物医学本体。许多本体之间显现出不同程度的重叠,其网罗度和特殊性也不尽相
同。因此,如果文本挖掘研究要应用到多种本体,还要考虑到这些本体之间的兼容。本体兼容问题可以通过
运用标准本体语言(例如使用类似RDF和OWL标准)得到解决。由于语言的固有特性,即使使用同一标准
的本体,也不能很好地把文本与本体相链接。主要障碍有二i(1)医学概念命名的不一致和不精确,(2)知
识扩张造成的本体不完整。
图l:本体提供了生物医学概念及其关系的机读描述。本体作为一座语义桥梁,把实际语法表达形式与表
达的抽象概念模型链接起来。借助本体语义层的支持。文本挖掘可以发现潜在的生物医学概念间的信息,这
与通过统计分析各类别生物医学术语共现的信息来挖掘文本数据,而后所发现的简单的联系截然不同。运用
高级文本挖掘技术从文本中抽取的知识可以管理并更新生物医学本体的内容.目前本体还不能及时反映新知
识的增长。
表l几种常用的生物医学本体
名称 网址
UMLS http:,,删Ⅵ.him.nih.gov/research/umls/
SNOMED http://www.snomed.org/snomedct/
GENIA http://www—tSujii.is.s.u-tokyo.ac.jp/_genha/
GALEN http
t,,ⅫⅦⅫ.opengalen.org/about.html
TaO http://imgproj.cs.man.ac.uk/tambis/
GO http
t,7、w~l~1.geneontology.org/
-85-
尽管如此,目前综合性的知识体还是存储在生物医学本体中,因而可被文本挖掘从多种途径上利用。文
本挖掘的结果也可以用于开发和更新生物医学本体。本文着重介绍各种文本挖掘应用中本体的使用和前景问
题。
1.术语表
术语表是文本和本体之间的主要联系,术语表将术语和领域概念相匹配(如图2所示)。术语(term)是
指具体概念(如基因,蛋白质,疾病)的文本实现形式。引进新术语预示着建立新概念.这个概念指向领域
知识空间的特定领地。这个过程就是把术语与本体中的概念匹配起来。匹配对于文本挖掘应用中语义信息的
解释十分重要。现存的主要问题是通常在术语与概念之间没有一对一的对应关系。在实际应用中,文本挖掘
面临着术语多样性和术语概念模糊的问题,造成整合存在于文本和本体的信息比较困难。
术语多样化(同义词)主要是由于自然语言的一个概念具有多种表达方式。例如,在生物医学领域有很
多蛋白质。酶以及基因等的同义词。一个概念通常有六七个同义词。两个专家用同一个术语来表达相同概念
的可能性仅仅为20%。此外,药理学中,大量的药物商品名都指相同的化合物,如Advil,Brufe
文档评论(0)