基于本体的文本挖掘结果的存储和表现.pdfVIP

下载本文档

6
0
约1.61万字
约 6页
2015-08-04 发布于安徽
举报

基于本体的文本挖掘结果的存储和表现.pdf

中华医学会第十五次全国医学信息学术会议论文汇编 1 基于本体的文本挖掘结果的存储与表现（/cgi/mesh/2008/MB_cgi）中 A 张庆崔雷∗ 大类-解剖类（anatomy category）、C 大类-疾病类（diseases 中国医科大学信息管理与信息系统（医学）系 110001 category）、G 大类-生物科学类（biological sciences category）主题词为研究对象，以MEDLINE 数据库中A 大类，前言 C 大类，G 大类主题词相关文献为样本，用高频主题词共词随着基因组学、蛋白组学、代谢组学的研究发展，生聚类分析方法提取文献中主题词之间的二维关联规则；以肿物医学文献的数量迅猛增长。如何在如此数量庞杂的文献中瘤领域为例，应用规则挖掘肿瘤领域相关概念间的关系，将找到我们需要的信息？这为生物医学信息工作者提出了机规则返回PubMed 进行检索，得出肿瘤领域相关概念间的关遇和挑战。文本挖掘的出现为准确快捷的发现我们需要的信系；将概念间的关系用本体这一概念模型进行组织和表达，息提供了有效途径。构建肿瘤主题领域的概念体系结构，最终实现肿瘤领域文本文本挖掘(Text Mining)是从大量文本数据中提取以前挖掘结果的本体表达。所未知的、有用的、可理解的模式或知识的过程。早在1986 二、研究样本年，Swanson DR 以MEDLINE 数据库为样本开展了对科学文利用PubMed （/ 献之间隐藏联系的研究。Swanson DR 从互不交叠的文集中， sites/entrez）检索相关文献，检索策略为各大类组配其相即从雷诺氏病的文献集合与食用鱼油的文献集合中，分析得应的副主题词的形式，如“Diseases Category/ virology” 出食用鱼油应该对雷诺氏病患者有帮助的假设，这一假设在 [MAJR]。首先确定各大类可组配的副主题词，然后针对每一后来的临床实践中得到了证实。人们由此首次认识到从文献种副主题词进行检索，对副主题词文献量小于5000篇的文献中可以发现或者挖掘到以前未知的知识。选用检索到的全部文献；对副主题词文献量大于5000篇的文根据文本挖掘的定义，文本挖掘的结果都是关于某一献在检索时直接利用medkit随机抽取5000篇，然后保存为领域数据的模式或者知识。这些模式或者知识有多种表达方 PID格式。检索文献时选择不扩展副主题词的检索方法，即式，如何充分表达这些知识并为以后使用（如推理等）打下对各大类的上位副主题词检索时用“NOT”逻辑“非”将其基础，成为文本挖掘后进一步关切的问题。本体则是表达这下位副主题词的文献排除。由于在随机抽取的5000篇文献中些模式或者知识的首选工具之一。有部分由于PID文本格式中存在空行而占据位置，因此去除关于本体（英文为Ontology，中文通常翻译为“本体”、空行后造成实际文献数不足5000篇。 “本体论”、“概念集”等，本文使用“本体”）的定义很多。三、研究工具 Neches(1991)将其定义为“给出构成相关领域词汇的基本术本研究实施过程中使用的工具包括如下几种。语和关系，以及利用这些术语和关系构成的规定这些词汇外（一）BICOMS 延的规则的定义”；Wielinga 和 Schreiber(1993)指出，本 BICOMS （Bibliographic Item Co-Occurrence Mining 体是关于知识代理中存在的实体的理论；Alberts(

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于本体的文本挖掘结果的存储和表现.pdfVIP