本体视图特征项提取算法及其在智能检索中应用.docVIP

下载本文档

3
0
约4.06千字
约 9页
2018-05-16 发布于福建
举报
版权申诉

本体视图特征项提取算法及其在智能检索中应用.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

本体视图特征项提取算法及其在智能检索中应用

本体视图特征项提取算法及其在智能检索中的应用　　[摘要]在基于本体的智能检索框架中引入本体视图，提出一种基于本体视图的特征项提取方法，通过利用中文信息结构提取器对文本进行特征提取，并进行类型映射，得到可计算的特征项。此方法比单纯的词汇信息更能体现概念信息特征，能提高检索系统的性能，提高检索的准确率和效率。　　[关键词]本体视图　特征项提取　智能检索　　[分类号]TP391 　　　　随着Internet海量信息与用户专一需求之间的矛盾日益突显，寻找有效快捷的信息查询方法已成为In－ternet应用的当务之急。目前，主流的查询方法是以浅层统计模型(如向量空间模型)为核心的文本过滤方法。此方法虽然便于实现且不依赖具体领域和语言，但由于缺乏对文档的语义分析，因而无法挖掘文本深层次主题信息，更无法保证以此为核心的系统性能。为了更好实现对用户需求及Internet信息的语义理解，基于语义网的智能检索方法孕育而生。其中，基于知网的中文信息结构提取方法最为成熟，此方法可提取中文文本的结构信息及特征项，并根据用户需求对特征项进行计算，还可设定检索程序得到检索结果。但是，此方法在同类文本特征项提取方面存在缺陷，这使所构建的知识库在应对多个相关检索需求时显得分散而孤立。为解决这一问题，本文引入一种基于本体视图的特征项提取方法，此方法在已有领域本体的支持下构造本体视图，并以此视图为基础完成同类文本的特征项提取。此方法能有效改进原智能检索框架中的特征项提取环节，并能更好地理解非结构化数据源信息，提高智能检索的准确率和效率。　　　　　　1　本体视图的概念　　　　本体视图是从一个或几个本体提取出来的属性集。与数据库中视图相对应，本体库中只存放本体视图的定义，当本体中某个概念或属性发生变化时，本体视图也要随之改变。　　本体视图的形式化表示为：OnAttr={a1，a2，…，an}，本体有n个属性，OnAttr为本体的属性集。On－View=1，b2，…，bn是一个视图，bj∈OnAttr，那么，由OnAttr可构造的本体视图集为OnViewSet={1，b2，…，bm|bi∈OnAttr，m∈N}，进一步扩展，得到OnView=1，t1)，(b2??t2)，…，(bm，tm)，其中，ti∈T，T={string，float，int，date，time，curren－cy…}，T为数据类型集。　　例如：一个学术会议征文本体，其属性有：截稿时间、论文修改时间、汇款时间、会议召开时间、会议地点、联系方式、征文范围、会议名称、主办单位。从这个本体，我们可以创建如下视图：ovl：=；ov2：=，等。　　　　2　半自动化智能检索流程　　　　半自动化智能检索中，特定主题是根据用户的需求、根据经验抽象出来的。例如，有如下检索需求：“2007年的软件工程方向的征文信息”，可以根据经验得出这是一个关于“学术会议征文”的检索需求，则特定主题可以抽象为“学术会议征文”。由于这是一个人工处理过程，所以称之为半自动化智能检索，具体过程如下：首先通过网络蜘蛛(Web Spider)搜索特定主题，得到原始网页集(IWPS)，IWPS通过富文本解析(RTP)后得到原始纯文本(IPTS)。同时，对于相关本体，构造本体视图；对于原始需求，通过需求分解，得到需求集。然后对IPTS，结合本体视图进行特征项提取和类型映射，得到可计算的特征项集。最后，对特征项集和需求集应用检索算法，得到最终的符合用户搜索主题的检索结果。如图1所示：　　　　3　基于本体视图的特征项提取算法　　　　3.1　算法步骤　　?文本表示成向量T=(T1，T2，…，Tn)，Ti为中文信息结构分量。　　?计算本体视图的原象，即f-1(OnView)，其中f－1()是f的反函数，f：T－OnView，记Dom=f－1(On-View)，其中，Dom={X|X∈T∧V x∈x，f(x)=OVA∧OVA∈OnView}。　　?利用中文信息提取器，从文本T中提取Dom相关信息，得到特征矩阵FVM。　　　　其中，n为OnView的维数，m是Dom中元素的最大特征数(称为本体视图属性的最大维)。每一列对应本体视图某一属性的相关信息，列中维数不足者补0。若f(X1)=OVA，|X1|=m为本体视图属性最大维；f(X2)=OVA2，|X2|=n，且n1和OVA2对应的矩阵列向量的转置分别为[11，V11，21，V21，…，mlJ，Vml]和[12，V12，22，V22，…，n2，Vn2，0，…，0]。　　?对特征矩阵的每一列进行概念消重、合并，得到特征向量E=(1，V1，2，V2，…，n，Vn)，其中Vi是(Vi1，Vi2，…，Vin)消重、合并后