基于语义WEBInternet检索技术.docVIP

下载本文档

1
0
约4.14千字
约 8页
2018-05-25 发布于福建
举报
版权申诉

基于语义WEBInternet检索技术.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于语义WEBInternet检索技术

基于语义WEBInternet检索技术　　【摘要】在网络检索技术中,WWW大部分都被用作为人们服务的文档媒体,页面的缺点大部分是由于它们是使用超文本标记语言(HTML)编写的,这种语言主要用来对文本进行格式化处理,而不是识别和标记内容。语义 Web 的目标就是来解决这些问题,它采用其他一些技术来帮助对页面中包含的机器可读和可理解的人类信息进行分类和组织,应用程序可以利用这些信息来帮助对信息进行分类和组织,来完成基于语义WEB的检索。　　【关键词】语义本体论语义WEB XML WWW 引擎　　　　1、引言. 　　至今为止,WWW大部分都被用作为人们服务的文档媒体,页面的缺点大部分是由于它们是使用超文本标记语言(HTML)编写的,这种语言主要用来对文本进行格式化处理,而不是识别和标记内容。因此不能够自动控制的信息。为网页扩展面向计算机的数据,并且增加专为计算机使用的文档,我们就可以把Web变成一个语义网络。HTML 标准已经进行了一些扩展(meta 标签),可以向页面中添加更多其他信息,但是这大部分都是多余的,它们用来将整个页面作为一个整体进行标记,而不是对给定页面的各部分内容进行说明。计算机会根据关键名称定义的超链接和逻辑推理规则发现语义数据的含义。这种基础设施的最终结果就是能够刺激开发自动化的网络服务。普通用户能够用现成的有语义标记功能的软件编写语义网页,增加新的定义和规则。语义 Web 的目标就是来解决这些问题,它采用其他一些技术来帮助对页面中包含的机器可读和可理解的人类信息进行分类和组织,应用程序可以利用这些信息来帮助对信息进行分类和组织。　　2、WWW和基于WWW检索的不足　　2.1万维网(简称WWW或Web) 　　利用万维网用户可以浏览互联网上所有的信息资源。但是万维网存在两个明显不足:(1)计算机不能理解网页内容的语义(2)网上有用信息难找,查准率也比较低,它在帮助网民得到成批相关网页的同时,也夹杂了许多用户不需要的信息垃圾。原因在于万维网现在采用的超文本标记语言,网页上的内容设计成专供人类浏览的,而非供计算机理解和处理的,因此无法为网民提供自动处理网上数据的功能。此外,万维网是按“网页的地址”,而非“内容的语义” [1]来定位信息资源的,网上所有信息都是由不同网站发布的,相同主题的信息分散在全球众多不同的服务器上,又缺少有效工具能将不同来源的相关信息综合起来,因此形成了一个个信息孤岛,查找自己所需的信息就像大海捞针一样困难。　　2.2今天的搜索引擎　　今天的WEB搜索通常会找到数不清的毫不相关的“结果”,例如,如果你用关键字“苹果”搜索,计算机根本无法知道你是在找一台电脑,还是找一种水果的信息,抑或是其他什么带有“苹果”商标的商品。问题的根源在于“苹果”这个词对计算机来说根本没有含义。为了使人们能够迅速准确地从成千上万的网页中过滤出自己感兴趣的内容,1998年,伯纳斯#8226;李提出了下一代万维网--“语义网”[2]的理念。　　3、语用WEB检索方法原理　　如果广泛采用WEB语义技术,那么“精细、准确和自动化”的搜索就能够实现。果农搜索的“苹果”是果农想要的水果信息,计算机人员搜索的“苹果”应该是苹果电脑公司,论文的目标是设计并提供一种简单易实现的方法:实现请求(资源搜索)者与提供(资源生产)者的精确结合,即请求者能够得到真正想要的资源,而不是现在这样得到许多无关资源,从而最大限度地提高资源的利用效率。　　3.1小世界现象　　1967年心理学家Stanley Milgram 做个简单实验[4]:从美国Kansas和Nebraska两座城市开始随机找一些人把一系列可跟踪标记的信件,传送到生活在Boston的某个目标人。传信方式是这些人通过自己的朋友或熟人传递信件,以期使信件送到目标人手中,其途中每位中间人交接时跟踪记录,最终测算出参与传送人数的统计结果。该实验表明:这些信件从开始传送到最终到达目标人,平均经过了六次传递,这种规律在生物学、社会学、生态学等领域也同时存在。很多科学家将这种规律称之为“小世界现象”。　　特别值得注意的是小世界现象中的“信息流动”不是盲目随机的,而是网络实体根据自己的局部认识做出的“最有可能性”的智能选择。这就是语义本体论。　　3.2语义本体论　　2001年Web技术发明人Tim Berners-LEE等人提出了语义网概念[1],其中一个理论基础就是语义本体论(semantic ontology)[2]。语义本体论就是实用分类系统,其主要成分是一整套对某一领域里的知识进行表述的词和术语,编制者根据该知识领域的结构将这些词和术语组成等级类目,同时规定类目的特性及其之间的关系。这些词和术语被称为元数据(metadata),它