- 6
- 0
- 约1.61万字
- 约 6页
- 2015-08-04 发布于安徽
- 举报
中华医学会第十五次全国医学信息学术会议 论文汇编 1
基于本体的文本挖掘结果的存储与表现 (/cgi/mesh/2008/MB_cgi)中 A
张庆 崔雷∗ 大类-解剖类(anatomy category)、C 大类-疾病类(diseases
中国医科大学信息管理与信息系统(医学)系 110001 category)、G 大类-生物科学类(biological sciences
category)主题词为研究对象,以MEDLINE 数据库中A 大类,
前言 C 大类,G 大类主题词相关文献为样本,用高频主题词共词
随着基因组学、蛋白组学、代谢组学的研究发展,生 聚类分析方法提取文献中主题词之间的二维关联规则;以肿
物医学文献的数量迅猛增长。如何在如此数量庞杂的文献中 瘤领域为例,应用规则挖掘肿瘤领域相关概念间的关系,将
找到我们需要的信息?这为生物医学信息工作者提出了机 规则返回PubMed 进行检索,得出肿瘤领域相关概念间的关
遇和挑战。文本挖掘的出现为准确快捷的发现我们需要的信 系;将概念间的关系用本体这一概念模型进行组织和表达,
息提供了有效途径。 构建肿瘤主题领域的概念体系结构,最终实现肿瘤领域文本
文本挖掘(Text Mining)是从大量文本数据中提取以前 挖掘结果的本体表达。
所未知的、有用的、可理解的模式或知识的过程。早在1986 二、研究样本
年,Swanson DR 以MEDLINE 数据库为样本开展了对科学文 利用PubMed (/
献之间隐藏联系的研究。Swanson DR 从互不交叠的文集中, sites/entrez)检索相关文献,检索策略为各大类组配其相
即从雷诺氏病的文献集合与食用鱼油的文献集合中,分析得 应的副主题词的形式,如“Diseases Category/ virology”
出食用鱼油应该对雷诺氏病患者有帮助的假设,这一假设在 [MAJR]。首先确定各大类可组配的副主题词,然后针对每一
后来的临床实践中得到了证实。人们由此首次认识到从文献 种副主题词进行检索,对副主题词文献量小于5000篇的文献
中可以发现或者挖掘到以前未知的知识。 选用检索到的全部文献;对副主题词文献量大于5000篇的文
根据文本挖掘的定义,文本挖掘的结果都是关于某一 献在检索时直接利用medkit随机抽取5000篇,然后保存为
领域数据的模式或者知识。这些模式或者知识有多种表达方 PID格式。检索文献时选择不扩展副主题词的检索方法,即
式,如何充分表达这些知识并为以后使用(如推理等)打下 对各大类的上位副主题词检索时用“NOT”逻辑“非”将其
基础,成为文本挖掘后进一步关切的问题。本体则是表达这 下位副主题词的文献排除。由于在随机抽取的5000篇文献中
些模式或者知识的首选工具之一。 有部分由于PID文本格式中存在空行而占据位置,因此去除
关于本体(英文为Ontology,中文通常翻译为“本体”、 空行后造成实际文献数不足5000篇。
“本体论”、“概念集”等,本文使用“本体”)的定义很多。 三、研究工具
Neches(1991)将其定义为“给出构成相关领域词汇的基本术 本研究实施过程中使用的工具包括如下几种。
语和关系,以及利用这些术语和关系构成的规定这些词汇外 (一)BICOMS
延的规则的定义”;Wielinga 和 Schreiber(1993)指出,本 BICOMS (Bibliographic Item Co-Occurrence Mining
体是关于知识代理中存在的实体的理论;Alberts(
您可能关注的文档
最近下载
- 珠海市金湾区面向2026年应届毕业生及社会人员公开招聘中小学编制内教师备考题库带答案详解.docx VIP
- 药物临床试验质量管理规范 .pdf VIP
- 《培养良好习惯主题班会》课件.ppt
- 四川省成都七中2025—2026学年度上学期期末考试高一英语试卷(含答案,含听力原文及音频).pdf VIP
- 近五年陕西中考数学真题及答案2024.docx VIP
- 初中数学新沪科版七年级下册全册教学反思(2025春).pdf VIP
- 广东省2025年中考历史试题(含答案).pdf VIP
- 2026春《开学第一课》PPT课件.pptx
- 学堂在线 雨课堂 学堂云 人工智能与创业智慧 章节测试答案.docx VIP
- 《心理学概论》教案.doc VIP
原创力文档

文档评论(0)