基于本体Web页面聚类的多用户需求发现.docVIP

下载本文档

2
0
约6.95千字
约 11页
2017-08-12 发布于北京
举报
版权申诉

基于本体Web页面聚类的多用户需求发现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于本体Web页面聚类的多用户需求发现　　一、引言　　随着云计算研究与应用的逐步展开和迅速普及，服务的数量增长速度也不断加快。在这样一个海量的集合上，通过服务发现和组合来满足用户的服务需求，其难度在不断增加。一方面由于服务具有分布、自治的特征，且数量急剧增长，在海量的服务资源中选择可互操作的服务候选者存在巨大困难; 另一方面云计算环境中用户需求多变，业务流程日益复杂，服务资源无法即时适应其变化。计算要求面向用户需求，以服务为基本单位，通过服务的协同和交互快速构建软件系统，已经成为构建大规模分布式系统的主流计算方式，这就迫切需要发展一种新的服务发现框架。　　传统的服务发现机制通常关注服务本身的属性和内在特征，而忽略了服务发现的宗旨是来尽可能满足用户的需求，这必然成为按需服务发现的瓶颈。要提高服务资源发现的效率和质量，需要以需求为引导，为需求者提供一种更好的服务表现形式，将需求者最关心的内容呈现给他们，而将服务实现的技术细节尽可能的隐藏起来，减少服务提供者和服务需求者对于服务理解上存在的鸿沟，让用户快速定位到自己真正需要的服务资源。　　本体（Ontology）是用于描述或表达某一领域知识的一组概念或术语，它可以用来组织知识库较高层次的知识抽象，也可以用来描述特定领域的知识，利用本体知识规则集的表现方式，聚类分析Web信息在语义层次上的共享和交换，可以大大加强Web的功能，使其成为自然语言处理， Web信息检索，数据库和知识库的管理，异构数据集成， Web页面语义研究，快速揭示海量信息资源中用户在语义、语用和知识上的需求。在越来越多的研究中开始利用本体解决特定环境下的语义搜索和标签聚类的需求，发现用户共同关心的需求等核心问题。　　从现有知识源（如文本、词典、遗留知识库或本体、数据库模式等）获取领域知识、以（半）自动方式构造或改编本体，即所谓的本体学习（Ontology Learning），是开发本体的有效途径。人们已进行了许多有关语义Web基础架构如本体语言OWL、编辑器、推理引擎等方面的工作，在聚类搜索引擎的理论研究中，O. Zamir提出Web信息聚类的STC（Shared Term Clustering）方法，依靠共同词组进行聚类，以后缀树的层次结构作为类的层次结构，其中关键词组的发现没有考虑词组的稳定性和完整性，没有考虑语义的问题，不能适用于中文等语言， D.Cutting等人提出Web信息聚类的Scatter/Gather系统，由于是采用传统的启发式聚类算法进行聚类，难以避免启发式聚类算法的种种缺点。Y. Wang等人提出基于超链接（hyperlink）进行万维网信息聚类，这种方法需要下载并分析实际的网页，因此不可能做到在线聚类。　　本文提出一种基于本体的Web页面聚类系统，综合聚类方法和领域知识的优点，将用户提交的查询与领域本体匹配，提取背景知识来提供聚类的参数确定同时也增强了聚类结果的可解释性，通过将其应用到搜索引擎的背景下，大大方便了用户需求信息的查找，同时聚类用户需求，实现查询集合的优化。　　二、本体的应用　　 Internet上的信息资源具有海量、分布、动态、复杂、开放等特点，需求本体信息的发现，用户如何从这些海量的数据中查找自己所需要的有用的信息，自动地从Web上发现、抽取和过滤信息，同时满足用户在特殊环境下的语义、语用和知识上的需求成为自动文本信息抽取的一个重要环节。文本信息抽取（text information extraction）是指从文本中自动抽取相关的或特定类型的信息。目前文本信息抽取模型主要有三种：基于词典的抽取模型，基于规则的抽取模型和基于隐马尔可夫模型（Hidden Markov Model， HMM）的抽取模型。采用HMM 存在的主要问题是没有考虑文本的上下文特征信息和文本词汇本身包含的特征信息，而这些信息对于实现正确的文本信息抽取是非常有用的。　　面对快速增长的Web信息，很多基于Web的应用面临着相关领域本体缺乏的问题，因为许多的本体构建严重依赖于以专家为中心的方式实现的，这种以手工为主的构建不仅代价很高，无法进行大规模扩展，同时要促使大量的用户和领域专家为语义Web来构建本体也存在相当的困难，因此研究自动的，通用的领域本体构建方法是解决这一问题的关键。　　本体是共享概念模型的明确的形式化规范说明，它一方面可以帮助用户明确其信息需求，把未意识到的、未清晰表达的客观信息需求进一步显性化;同时让系统确定检索词在本体中的确定位置，从而帮助机器理解用户的检索意图，为用户提供更精确、更相关的知识和信息。 Web上的搜索引擎部分地解决了资源发现的问题，但由于它的策略是基于关键字的匹配，缺乏对W