- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于主题模型的Web服务聚类与发现机制
研究论文
基于主题模型的Web 服务聚类与发现机制*
李 慧 胡云凤
(西安电子科技大学经济与管理学院 西安 710071)
摘要: 【目的 】针对网络中海量的Web 服务, 提出一种有效的Web 服务聚类与发现方法。【方法 】利用BTM 学
习整个Web 服务描述文档集的隐含主题, 通过推理得出每个文档的主题分布, 并进行聚类。在此基础上, 创建一
个快速的Web 服务发现机制。【结果 】与使用LDA 和外部语料库等方法进行对比实验, 本文方法的查准率和标
准折损累计增益均有所提高。【局限 】仅考虑服务的功能信息, 未将服务的质量信息纳入算法。【结论 】实验结
果显示该方法可以更准确地发现符合用户需求的服务。
关键词: Web 服务 主题模型 聚类 发现
分类号: G350
服务时, 由于没有有效的分类机制, 很难快速有效地
1 引 言
发现Web 服务。
目前正在步入面向服务的时代, SOA(Service 针对上述问题, 本文提出一种利用 BTM (Biterm
Oriented Architecture)架构被广泛应用, 而Web 服务逐 Topic Model) [5] 的Web 聚类与发现方法。BTM 对整个
渐成为实现 SOA 架构的主流技术。SOA 架构遵循发 语料库的词对生成过程建模, 从而学习整个语料库的
现、绑定、执行的服务模式, Web 服务由提供者发布在 主题分布和主题– 词分布, 结合向量空间计算词的
私有的或公共的互联网平台上, 用户在海量的Web 服 TF-IDF 值, 可以推理得到每篇Web 服务描述的主题分
务中发现符合自己要求的Web 服务, 与之进行绑定调 布, 进而对其聚类。Web 服务发现过程为: 获取请求服
用, 实现自己的目的。在这个过程中, 用户不需要了解 务的类别; 对该类别下的服务进行基于主题相似度的
服务的实现方式, 只需服务能够提供给用户满意的执 过滤, 大大缩小检索范围; 计算请求服务与 Web 服务
行结果。互联网平台上发布的服务日益增多, 如何从 之间的词向量相似度, 结合主题相似度和词向量相似
海量的Web 服务中发现用户满意的服务, 即从发布的 度, 找到满足用户需求的服务集合。
Web 服务描述中发现能满足用户期望的服务, 是实现
2 相关工作
面向服务架构关键的一环。
Web 服务描述文本篇幅较短、特征稀疏和信息量 对Web 服务发现的研究, 大量的工作投入在利用
本体、词典发现的方法[1-2,6-8] [2]
少, 根据词语的共现程度来度量相似性不可行。基于 中。文献 运用领域本体
关键词发现 Web 服务, 完全依赖词语共现程度, 十分 提出一种Web 服务发现方法, 该方法通过本体中的概
不准确。为了丰富Web 服务描述文本, 一些语义Web 念距离计算服务请求和发布的服务之间的语义相似
[9]
方法被用于服务发现, 例如基于语义或者本体发现 度。文献 对Web 服务进行语义标注, 帮助发现Web
Web 服务的方法[1-3] 。但是, 建立和维护本体十分困难, 服务。但是这类方法需要大量的人工干预, 依赖于本
并且需要大量的人工干预[4] 。此外, 在面对海量的Web 体的好坏及维护工作, 词库在某些领域的词汇量不足
通讯作者: 胡云凤, ORCID: 0000-0002-7342-3755, E-mail: 1540520650@ 。
*本文系中央高校基本科研业务费专项资金资助项目“大数据环境下基于主题模型的信息服务研究”(项目编号: JB160606)的研究
成果之一。
30 现代图书情报技术
您可能关注的文档
- 各项减免学杂费-明新科技大学.DOC
- 各种的TCP版本之观察一.PPT
- 合并活页簿合并活页簿.PPT
- 合肥性病门诊诊断正确性评价.PDF
- 合肥学院卓越计划年报告.DOC
- 合理规避特种设备责任风险探讨-四川质量技术监督局.PPT
- 吉安职业技术学院2014年社会招聘.DOC
- 吉林中小金融机构及其经营效率的实证分析-社科网.PDF
- 吉林大学放射医学专业硕博连读研究生培养方案-吉林大学公共卫生.DOC
- 同时提供了7个字段信息和关键字段关联链接信息23法学期刊库法学.PPT
- 抢分秘籍10 带电粒子电场中的直线运动、偏转和交变电电场中的应用(三大题型)(原卷版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍11 带电粒子在组合场、叠加场中的运动(五大题型)(解析版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍11 带电粒子在组合场、叠加场中的运动(五大题型)(原卷版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍12 电磁感应中的电路与图像问题(二大题型)(解析版) -2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍12 电磁感应中的电路与图像问题(二大题型)(原卷版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍14 热力学定律与气体实验定律综合应用(五大题型)(解析版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍13 电磁感应中的动力学、能量和动量问题(三大题型)(原卷版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍14 热力学定律与气体实验定律综合应用(五大题型)(原卷版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍16 振动图像与波动图像的综合应用(三大题型)(解析版)-2025年高考物理冲刺抢押秘籍.pdf
- 抢分秘籍15 光的折射、全反射的综合应用(二大题型)(解析版)-2025年高考物理冲刺抢押秘籍.pdf
文档评论(0)