- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义聚类Web服务发现机制
基于语义聚类Web服务发现机制
摘 要:本文提出了一种基于语义聚类算法的两阶段Web服务发现机制。第一阶段,给定一个查询,首先通过聚类算法过滤掉哪些内容与查询不符合的Web服务;第二阶段针对这个数据集使用PLSI算法,进一步进行聚类获得一个有限的语义相关组,使用PLSI方法可以发现隐藏在查询和Web服务中的语义概念,这样服务匹配可以在语义概念层次进行。
关键词:Web服务发现Web服务匹配语义聚类主题模型
中图分类号:TP3 文献标识码:A 文章编号:1007-9416(2010)08-0042-03
1 介绍
Web服务作为一种分布计算技术,已经引起了工业界和研究界的极大兴趣。Web服务采用开放标准的接口和协议,可以作为一个基本的软件组件用于面向服务的应用程序(SOA)中。当前,在Web服务领域,研究人员主要集中于两个领域:Web服务发现和Web服务合成。
Web服务发现通常被定义为可用的Web服务的功能匹配服务使用者需要的过程。Web服务的功能通常隐含在服务的名称、方法的名称以及一些包含在服务中的描述信息。这些功能可以通过使用标准的Web服务描述语言(WSDL)表述成一个抽象的接口。通过标准的Web服务描述,各种方法被开发用来发现Web服务,如Web搜索引擎、服务门户网站以及服务注册,如UDDI。UDDI在语法上允许使用基于关键字的搜索和基于分类目录的服务浏览。因此,在UDDI中,一个服务查询者可以使用关键字获得相关服务。
然而,被UDDI和绝大多数服务搜索引擎使用的关键字发现机制存在一些重大缺陷。首先,基于关键字搜索得到的Web服务数目巨大,使得用户找到需要的服务非常困难。虽然可以通过压缩数据从而减小返回的Web服务大小,然而,SVD和SVM之类的技术不适合于处理大规模文档集合,因为SVD的存储和计算成功太高。
第二,关键词不足以表达语义概念。部分原因是关键词通常使用自然语言描述。自然语言中大量存在的同义词使得查全率降低,大量存在的多义词导致查准率降低。因此,查到的服务可能完全与期望的服务无关。为了解决这个问题,研究人员提出了语义Web的概念,在语义Web中,本体被用来表示Web服务中的元素。然而,集成不同的本体比较困难,而且本体的创建和维护本身也需要巨大的人力。
针对上述问题,本文提出了一种基于聚类算法的两阶段Web服务发现机制。第一阶段,给定一个查询,首先通过聚类算法过滤掉哪些内容与查询不符合的Web服务;第二阶段针对这个数据集使用PLSI算法,进一步进行聚类获得一个有限的语义相关组,使用PLSI方法可以发现隐藏在查询和Web服务中的语义概念,这样服务匹配可以在语义概念层次进行。
2 相关工作
Dong等[1]提出了一种用于搜索Web服务的聚类算法,这种搜索算法分为两个阶段:一个用户首先在搜索引擎中输入关键词去寻找相对应的服务;然后,基于这些被返回的服务集,应用算法从Web服务的自然语言描述中提取语义概念。特别地,如果相同的词语出现在输入和输出、操作的名称、Web服务的描述中,这个算法应用凝聚聚类算法将这些术语聚类成有意义的概念。通过原先的关键词和从服务的描述中提取出的概念的结合,两个Web服务的相似性可以在概念层次进行比较,改进了查全率和查准率。
Arbramowicz等[2]提出了一种用于Web服务过滤和聚类的架构。服务过滤基于代表用户和应用程序信息的profiles,这个可以进一步通过OWL-S描述。为了提高过滤过程的有效性,在过滤过程中应用聚类分析算法比较服务集与相关簇。这个过程的目标是节约执行时间和改进存储数据的提炼效果。另一个相似的Web服务发现机制[3]集中在使用OWL-S和聚类技术上,该方法包含3个步骤:首先需要使用聚类算法对各种Web服务进行分组;然后OWL-S跟WSDL结合来代表服务的语义;最后,通过将用户查询与所有簇进行匹配,返回合适的服务。
方法[4]关注基于目录的服务发现上,首先Web服务被聚类到预先定义的层次结构商务目录上。在这种情况下,合理的服务发现性能取决于服务提供者和服务查询者在服务的组织架构上是否有预先了解。
本文提出的方法与[1,2,3]相似,关键词被用来获得初始Web服务集合,然后使用聚类算法从Web服务的自然语言信息描述中提取语义概念。不同之处在于,对通过关键词获得的初始Web服务集合首先通过应用一个聚类算法消除无关服务,减小返回服务集的大小。
3 Web服务发现框架
本文提出的Web服务发现机制结合关键词技术和语义提取技术,目标是降低计算大量数据集的成本以及可以在语义概念层次上进行服务匹配。为了实现这个目标,在获得一个最初的服务集后,首先使用一个修改过的
文档评论(0)