建立与运用基于口腔医学领域本体知识挖掘模型方法.docVIP

建立与运用基于口腔医学领域本体知识挖掘模型方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
建立与运用基于口腔医学领域本体知识挖掘模型方法

建立与运用基于口腔医学领域本体知识挖掘模型方法   摘要: 本文简单介绍了口腔医学领域本体知识挖掘模型的建立方法,并以国家自然科学基金资助项目为例,运用模型进行知识挖掘。   关键词: 口腔医学;领域本体;知识挖掘   中图分类号:R-33文献标识码:A文章编号:1006-4311(2012)07-0303-01   国家自然科学基金(以下简称基金)是国家创新体系的重要组成部分,在激励创新研究、支持和培养创新人才、促进科技进步方面发挥了重要的引领作用,获基金资助的规模和强度已成为衡量原始创新能力的重要指标之一。基金作为我国扶持基础性研究的重要途径和国家性投资,历来是各高校、科研单位激烈角逐的目标。基金申报的数量在逐年增加,2010年基金集中受理期间,已接收全国各类申请共114955项。2011年项目申请量更是呈现迅猛增长态势,截止到3月20日上午,基金委已收到1973个依托单位通过网络申报的项目申请147449项[1]。在申请量井喷式增长而基金相对资助率并没有同步增长的情况下[2],如何提高自身(某人或某单位)的中标率?基金资助是学科发展的方向标,科研水平的公平秤。国家重点扶持的学科方向是什么?全国范围内某专业科研能力比较强的单位有哪些?这些单位的优势学科是什么?我们如何从历年中标项目名单中找到这些问题的答案?   知识挖掘(Knowledge Mining,KM)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程[3]。它源于全球范围内数据库中存储的数据量急剧增加,人们的需求已经不只是简单的查询和维护,而是希望能够对这些数据进行较高层次的处理和分析以得到关于数据整体特征和对发展趋势的预测。目前,挖掘方法主要有两大类:一是利用智能代理、信息过滤和信息化Web代理等解决繁重的数据收集处理任务;二是将非结构化或半结构化数据转换为结构化数据,即数据库的数据,用传统查询方式进行挖掘,主要包括基于关键词的挖掘、文字特征值的挖掘和样本的挖掘三种方法。这两类挖掘方法都基于检索词或主题词,简单而便捷,但无法挖掘信息之间的内在联系,挖掘结果只是包含有用户使用的检索词或关键词的文档??得不到其他相关信息。要解决这些问题,关键在于进一步开发基于知识和语义的挖掘方法[4]。本体(Ontology)是概念化的明确的规范化说明[5]。它是一种新型的元数据和知识表达方式,通过捕获相关领域的知识,提供相关领域公认的概念集,并给出这些概念及其相互关系的明确定义。因此,本体能把知识表达扩展到语义层次,可以有效克服关键词表达的缺陷。领域本体(Domain ontology)是专业性的本体,提供了某个专业学科领域中概念的词表以及概念之间的关系,或在该领域里在主导地位的理论。构建领域本体有利于对特定领域知识进行知识挖掘,实现特定专业领域概念的自动抽取、关系发现和知识获取,把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持和知识服务。   本文在构建基于口腔医学领域本体的知识挖掘模型的基础上,以2004-2010年国家自然科学基金中标项目情况为例,对文本进行知识挖掘,分析基金资助的重点、热点,项目之间的关联,项目内容的时间变迁及重点、热点项目所对应的核心人物和核心机构等。研究步骤如下:   ①收集口腔医学文献并做术语提取,以半自动化方式构建口腔医学领域本体;   ②以概念为语言单位提取文本特征。比如“口”与“嘴”具有同义关系,通过计算语音的文本相似度,将两个词映射到同一概念。同理找出近义、从属等关系;   ③将文本表示模型转换成概念转换模型;   ④下载2004-2010年历年的口腔医学专业基金中标项目的相关数据包括:标题、学科方向、中标的作者、作者单位等信息,输入至数据库;   ⑤用神经网络学习、朴素贝叶斯和本体推理结合的方法进行机器学习,挖掘出数据中所隐含的知识;   1)主题挖掘及主题关系挖掘;2)对不同主题自动分类并按年份进行时间分段追踪比较分析,有助于了解这些主题研究力量和内容的时间变迁;3)根据不同主题分析出研究相应项目负责人和研究机构的联系强度,可以确定该主题研究领域的核心人物和核心机构;4)统计分析具有相同主题的项目负责人群,可以了解这些主题研究领域在国内的分布和发展趋势;   ⑥用准确率(返回结果中正确的比例)和召回率(表示所有正确结果中返回的比例)对知识挖掘的结果进行客观的评价。   影响基金申报命中率的因素除自身科研实力外,还涉及多方面因素,科学地分析这些影响因素,提出相应的对策,对提升基金项目申报质量,提高命中率具有重要的意义。《孙子兵法》有云“知己知彼,百战不殆”。对历年中标的总体学科方向进行知识挖掘,准确把握、正确预测项目资助的学科导向和发展趋势才能“知彼”;对

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档