基于本休概念专长表示研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于本休概念专长表示研究

基于本休概念专长表示研究   [摘要]传统的专家识别系统大多采用一组带权重的关键词来表征专家的专长,然而这种基于关键词的专长描述不足以概括专家的研究主题。提出基于领域本体概念的专长表示方法,通过构建相应的领域本体来描述领域核心概念和概念间关系,利用谷歌距离来计算关键词到本体概念的语义相似度,完成关键词到概念的映射,从而得到基于本体概念的专长表示。   [关键词]本体领域概念专长表示语义相似度   [分类号]G203   1引言   有效管理和利用组织专家的知识,是促进组织知识共享和知识创新的前提,是保持组织核心竞争力的关键。识别在某个主题领域拥有相关专长知识的专家是有效管理和利用组织专家知识的第一步。现有的专长识别研究中,大多利用文档中的关键词组来表征专家的专长,但是这种基于关键词的专长描述不足以概括专家的研究主题。因此,本文提出基于本体概念的专长表示方法,首先构建相应的领域本体,描述领域核心概念和概念之间的关系,然后利用关键词到本体概念的语义相似度,将基于关键词的专长表示转换到基于本体概念的专长表示,从而揭示和呈现专家专长的语义关联。   2领域本体对于专长表示的作用   专家具有专长通常是因为“拥有专门知识或具体技能”,这是专长最基本的一种定义。在复杂、动态和未可预知的新情况中,专家具有将其固有的知识与技能转换应用到新情况中,并找到新解决方案的创造能力。不管是专门知识或是创造能力,都是无形的,很难清楚地表达出来,但却可以体现在有形的结果中,例如个人主页、出版物、项目文件、电子邮件、博客等。常用的专长识别方法是通过挖掘各类相关信息,从中抽取有代表性的关键词来描述。由于自然语言中存在同义词和多义词现象,基于关键词的专长表示具有诸多的局限性:一方面可能会用不同的关键词来描述同一专长,另一方面同一关键词可能出现在不同专长的描述中。因此基于概念的专长表示成为一个亟待解决的问题。   领域本体是领域共享概念模型的形式化的规范说明,严格定义了某个领域的概念以及概念间关系。利用本体提供的概念集合及概念关系可以使原有的词汇层面的专长表示上升到词语语义层面的专长表示,能够将描述某一专长的不同描述词统一为一个概念,从而更准确地识别专长主题及专长关联。例如用5个关键词来描述一个专家的专长:E=k(m1)w(m1)),(K(m1)w(m1)),(K(m1)w(m1)),(K(m1)w(m1))(K(m1)w(m1)),如果K(m1)K(m2)K(m3)与领域本体中的概念C(m1)紧密关联,而K(m4)K(m5)与c,紧密关联,则基于关键词的专长表示可转换为E(m1)=(c(m1)w(m1)),(c(m2)w(m2))。这种转化不仅克服了原有单个专家专长表示中关键词相互独立的问题,而且为不同专家的专长关联奠定了基础。   3系统框架   基于本体概念的专长表示系统框架(见图1)包括四大模块:①数据预处理模块;②基于关键词的专家专长档案构建模块;③领域本体构建模块;④关键词与概念语义关联模块。      数据预处理模块的主要功能是集成专家相关信息。针对不同类型和格式的数据源设计不同的抽取方式(如定义相应的封装器),对抽取到的各种专长支撑信息进行统一存储和处理。主要解决由数据模型差异引起的语法异构和由硬件与操作系统不同引起的结构异构等问题。   基于关键词的专长档案构建模块从经过统一处理的专长支撑信息中抽取专长特征词(关键词),统计特征词的位置、频次等信息,并根据特征词所在的文档结构和类型赋予不同的权重以区分其重要程度。最后利用向量空间模型实现基于关键词的专长表示。   领域本体构建模块的主要功能是定义目标领域的核心概念及其关系。本文采用本体学习的方法,利用自然语言处理、文本挖掘、机器学习等技术从领域文本集中抽取领域概念并识别概念关系,构建相应的本体。该模块是实现由基于关键词的专长表示向基于概念的专长表示的重要基础。   关键词与概念的语义关联模块的主要功能是实现专长关键词和本体概念之间的映射,是基于本体慨念的专长表示系统的核心。该模块通过汁算专长哭键词与领域概念之间的语义距离衡量语义相似度,将原有专长表示中每一个带权重的关键词都转换为对应的慨念,并计算其权重,最后对这些概念和权重进行汇总,得到基于概念的专长表示。   4从关键词匹配到概念的关键技术   4.1基于关键词的专长表示   基于关键词的专长表示在数据预处理的基础上进行,即在专长支撑文档集中抽取对专家专长描述有代表意义的特征词,并考虑不同的文档类型(如论文信息、项目信息、个人主页信息)和文档结构(如正文、摘要、关键词)对特征词权重的影响,具体处理方法如下:   步骤1:收集专家支撑文档(s),包括论文信息(T)、项目信息(P)、个人主页信息(B),即s=

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档