本体视图特征项提取算法及其在智能检索中应用.docVIP

本体视图特征项提取算法及其在智能检索中应用.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
本体视图特征项提取算法及其在智能检索中应用

本体视图特征项提取算法及其在智能检索中的应用   [摘要]在基于本体的智能检索框架中引入本体视图,提出一种基于本体视图的特征项提取方法,通过利用中文信息结构提取器对文本进行特征提取,并进行类型映射,得到可计算的特征项。此方法比单纯的词汇信息更能体现概念信息特征,能提高检索系统的性能,提高检索的准确率和效率。   [关键词]本体视图 特征项提取 智能检索   [分类号]TP391      随着Internet海量信息与用户专一需求之间的矛盾日益突显,寻找有效快捷的信息查询方法已成为In-ternet应用的当务之急。目前,主流的查询方法是以浅层统计模型(如向量空间模型)为核心的文本过滤方法。此方法虽然便于实现且不依赖具体领域和语言,但由于缺乏对文档的语义分析,因而无法挖掘文本深层次主题信息,更无法保证以此为核心的系统性能。为了更好实现对用户需求及Internet信息的语义理解,基于语义网的智能检索方法孕育而生。其中,基于知网的中文信息结构提取方法最为成熟,此方法可提取中文文本的结构信息及特征项,并根据用户需求对特征项进行计算,还可设定检索程序得到检索结果。但是,此方法在同类文本特征项提取方面存在缺陷,这使所构建的知识库在应对多个相关检索需求时显得分散而孤立。为解决这一问题,本文引入一种基于本体视图的特征项提取方法,此方法在已有领域本体的支持下构造本体视图,并以此视图为基础完成同类文本的特征项提取。此方法能有效改进原智能检索框架中的特征项提取环节,并能更好地理解非结构化数据源信息,提高智能检索的准确率和效率。         1 本体视图的概念      本体视图是从一个或几个本体提取出来的属性集。与数据库中视图相对应,本体库中只存放本体视图的定义,当本体中某个概念或属性发生变化时,本体视图也要随之改变。   本体视图的形式化表示为:OnAttr={a1,a2,…,an},本体有n个属性,OnAttr为本体的属性集。On-View=1,b2,…,bn是一个视图,bj∈OnAttr,那么,由OnAttr可构造的本体视图集为OnViewSet={1,b2,…,bm|bi∈OnAttr,m∈N},进一步扩展,得到OnView=1,t1),(b2??t2),…,(bm,tm),其中,ti∈T,T={string,float,int,date,time,curren-cy…},T为数据类型集。   例如:一个学术会议征文本体,其属性有:截稿时间、论文修改时间、汇款时间、会议召开时间、会议地点、联系方式、征文范围、会议名称、主办单位。从这个本体,我们可以创建如下视图:ovl:=;ov2:=,等。      2 半自动化智能检索流程      半自动化智能检索中,特定主题是根据用户的需求、根据经验抽象出来的。例如,有如下检索需求:“2007年的软件工程方向的征文信息”,可以根据经验得出这是一个关于“学术会议征文”的检索需求,则特定主题可以抽象为“学术会议征文”。由于这是一个人工处理过程,所以称之为半自动化智能检索,具体过程如下:首先通过网络蜘蛛(Web Spider)搜索特定主题,得到原始网页集(IWPS),IWPS通过富文本解析(RTP)后得到原始纯文本(IPTS)。同时,对于相关本体,构造本体视图;对于原始需求,通过需求分解,得到需求集。然后对IPTS,结合本体视图进行特征项提取和类型映射,得到可计算的特征项集。最后,对特征项集和需求集应用检索算法,得到最终的符合用户搜索主题的检索结果。如图1所示:      3 基于本体视图的特征项提取算法      3.1 算法步骤   ?文本表示成向量T=(T1,T2,…,Tn),Ti为中文信息结构分量。   ?计算本体视图的原象,即f-1(OnView),其中f-1()是f的反函数,f:T-OnView,记Dom=f-1(On-View),其中,Dom={X|X∈T∧V x∈x,f(x)=OVA∧OVA∈OnView}。   ?利用中文信息提取器,从文本T中提取Dom相关信息,得到特征矩阵FVM。      其中,n为OnView的维数,m是Dom中元素的最大特征数(称为本体视图属性的最大维)。每一列对应本体视图某一属性的相关信息,列中维数不足者补0。若f(X1)=OVA,|X1|=m为本体视图属性最大维;f(X2)=OVA2,|X2|=n,且n1和OVA2对应的矩阵列向量的转置分别为[11,V11,21,V21,…,mlJ,Vml]和[12,V12,22,V22,…,n2,Vn2,0,…,0]。   ?对特征矩阵的每一列进行概念消重、合并,得到特征向量E=(1,V1,2,V2,…,n,Vn),其中Vi是(Vi1,Vi2,…,Vin)消重、合并后

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档