基于本体Deep Web语义分类的研究.pdfVIP

下载本文档

1
0
约2.93万字
约 13页
2017-08-30 发布于安徽
举报
版权申诉

基于本体Deep Web语义分类的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于本体的Deep Web 语义分类研究1 1，2 1 1 1 3 宋玲，马军，闫泼，韩晓辉，莫正波 1 山东大学计算机科学与技术学院，济南 (250101) 2 山东建筑大学计算机科学与技术学院，济南 (250101) 3 青岛理工大学理学院，山东青岛 (266033) E-mail: song_ling@ 摘要: 针对目前 Deep Web 分类研究中所采用的 Post-query 查寻探测方法缺乏语义支持的问题，本文提出一个基于本体的语义查询探测分类方法。主要思想如下: 首先针对一个 Deep Web 数据库集合，提取查询接口中的属性及其实例，半自动建立领域本体，并且通过领域本体来表示类别特征；然后利用领域本体中的概念以及相应的实例构造语义查询集；最后对待分类的 Deep Web 数据库利用语义查询集进行查询探测，计算查询探测返回的结果文档在领域本体中的信息覆盖量，并以此对 Deep Web 进行分类。实验表明这种语义查询探测分类的方法和以往的方法相比，在准确率、查全率和 F1 值上有一定的提高。关键词: Deep Web 分类；本体；语义；查询探测中图法分类号:TP301 文献标识码: A 1. 前言近来研究表明网络上存在的大量Deep Web数据库只有通过用户提交一系列关键词给查询接口后才能动态生成查询结果，因此对用户来说这部分页面是隐藏的，这些页面被称为Deep Web 或Hidden Web ，而一般来说，通过超链接能够爬取并索引到的网页被称为 Surface Web 。整个网络中Deep Web蕴含的信息量约为Surface Web的400-500倍，而且还在快速地增长[1]。为了有效利用这些Deep Web 数据库中的信息，对Deep Web数据库快速有效地分类具有非常重要的意义。查询接口在网页上是以Html语言的Form元素所形成的表单的形式出现，通过对其中若干属性的赋值形成一个对数据库的查询。当前Deep Web分类研究主要有两类方法，一类是Pre-query方法，即基于查询界面中的属性信息和查询界面所在网页的文本内容信息实现对Deep Web数据库的分类；另外一种是Post-query方法，即通过查询界面提交查询关键字，通过对未知的数据库反复地查询探测，对返回查询结果进行分析来判断一个Deep Web数据库属于哪个领域。有关 Deep Web 的 Pre-query 分类研究中，文献[2]综合考虑了 Deep web 资源的查询接口属性和网页文本内容这两项因素，用来进行聚类研究。文献[3]在计算 Deep Web 之间的相似度的时候，不仅考虑了一般意义上的网页特征词向量、查询接口属性向量，而且根据电子商务网站的特点，考虑了价格特征词向量。这种通过查询接口属性或网页文本进行分类的方法可以从很大程度上反映其所对应的 Deep Web 数据库的领域特征，但是这仅仅考虑了Deep Web 的表面特征，要想全面获得Deep Web 数据库的内容，必须对Deep Web 数据库进行 Post-query 查询探测。在 Post-query 查询探测分类的相关研究中，文献[4]首先进行查询探测，对返回的结果文档进行提取，得到 Deep Web 数据库的内容概要，然后根据事先定义好的关于概念的一个层次结构，计算它们之间的相似度来进行自动分类。在文献[5]中，对属于某个领域的文献集合，首先进行特征词抽取，生成一个层次结构的概 1本课题得到高等学校博士学科点专向科研基金（20070422107 ）和省科技攻关项目（2007G）的资助。 - 1 -