- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《现代图书情报技术》版权所有,欢迎下载引用!
请注明引用地址:基于本体和文档重构的语义检索方法 [J],现代图书情报技术,2009(12):42-46.
知识组织与知识管理
基于本体和文档重构的语义检索方法
陈 兵 邰晓英
(宁波大学信息科学与工程学院 宁波315211)
【摘要】提出一种新的基于本体和文档重构的语义检索方法,该方法通过构造本体知识库,依据本体知识进行文
档重构,将本体的语义描述和语义关联能力应用到现有的信息检索系统。将隐形语义索引(LatentSemanticInde
xing,LSI)技术应用到语义检索结果的排序过程中,并与传统的向量空间模型(VectorSpaceModel,VSM)方法进行
对比。实验结果表明本文所提出方法更具有效性,比相对应的VSM方法性能提高约10.55%-17.63%。
【关键词】本体 文档重构 语义检索 隐形语义索引 向量空间模型
【分类号】TP391
SemanticRetrievalUsingOntologyandDocumentRefinement
ChenBing TaiXiaoying
(FacultyofInformationScienceandEngineering,NingboUniversity,Ningbo315211,China)
【Abstract】Toenhancetheretrievalaccuracyofinformationsearchengine,thispaperproposesaninformationretrieval
systembasedonOntologyanddocumentrefinement,whichisrealizedbyemployingthesemanticdescriptionandrelevance
ofOntologytothesystem.ItdescribestheusingofLSItoreplacethetraditionalVSMintheresultsofsortingprocess.
Usingacomparativeexperiment,theauthorsshowthenewapproachismorefeasibleandeffectivethanVSM,whichcan
improvetheperformanceupto10.55%-17.63%.
【Keywords】Ontology Documentrefinement Semanticretrieval LSI VSM
1 引 言
在现有的信息检索系统中,信息查询大多数采用关键字匹配的查询方式,只有查询词出现在文档中才有可能
被检索到,这样自然语言文本中具有一词多义(Polysemy)和一义多词(Synonymy)的词汇在查询时就会被漏掉,造
成检索精度不高。这种词不匹配问题是影响信息检索效率的重要原因之一。
[1]
WordNet 是由普林斯顿大学认识科学实验室在心理学教授乔治 ·A·米勒的指导下建立和维护的一个英语
字典,它根据词条的意义将词条分组,每一个具有相同意义的词条组称为一个 Synset(同义词集合)。WordNet为
[2]
每一个Synset提供了简短、概要的定义,并记录不同Synset之间的语义关系。中文WordNet 由东南大学计算机
科学与工程学院和荷兰自由大学计算机科学学院合作完成,实现一个约118000中文词和115400同义词集的中
[3]
文-中文的功能。张敏等 提出基于语义关系查询的文档重构方法,将查询扩展词和被扩展词合并成同一个概
念进行检索,通过相关子信息的聚集,改进检索的效果。本文基于WordNet和中文WordNet构建本体知识库,并
采用一种新的文档重构算法对语料库中的中英文文档进行重构,解决中英文检索过程中的词不匹配问题。
向量空间模型是近年来应用较多的信息检索模型之一,其不足之处在于假设所有的索引项都是独立的,而事
收稿日期:2009-10-27
收修改稿日期:2009-11-20
本文系国家自然科学基金项目“基于内容的医学图像检索理论与算法研究”(项目编号的研究成果之一。
42 现代图书情报技术
文档评论(0)