语义网研究和发展对未来搜索引擎影响.docVIP

下载本文档

2
0
约3.67千字
约 9页
2018-09-20 发布于福建
举报
版权申诉

语义网研究和发展对未来搜索引擎影响.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语义网研究和发展对未来搜索引擎影响

语义网研究和发展对未来搜索引擎影响　　摘要：目前在全球市场里占据主要份额的谷歌、雅虎、百度等搜索引擎，提供给人们的依旧是比较笨拙的工具，因为它们始终受制于传统Web，对搜索关键字的精确度要求苛刻，处理自然语言的能力很低。语义网（SW）的提出、研究和发展，给搜索引擎带来了新的希望。而基于语义Web的智能搜索引擎，则是下一代搜索引擎的必然选择。　　关键词：中文分词；网络蜘蛛；XML；Web本体语言(OWL)；资源描述框架(RDF) 　　中图分类号：TP393文献标识码：A文章编号：1009-3044(2008)14-20840-02 　　　　1 搜索引擎的现状　　　　对搜索关键字的精确度要求苛刻，处理自然语言的能力很低；融合不同来源相关信息的能力不高；不利于弱势群体。正如搜索领域的科学家们常说的那样：人们关于搜索的问题只有5%解决了，而我们还没有利用到搜索潜力的10%。　　　　2 搜索引擎的工作原理　　　　2.1 搜索引擎的系统架构　　2.1.1 从互联网上抓取网页　　网络蜘蛛是一种能够自动从互联网上抓取网页的HTML代码并沿着一个网页中的所有URL爬到其它网页的机器人程序，它重复此过程，并把爬过的所有网页收集到服务器中。网络蜘蛛在搜索引擎中占有重要位置，对搜索引擎的查全、查准都有影响，并决定了搜索引擎数据容量的大小，而且网络蜘蛛的好坏直接影响搜索结果页中死链接（即链接所指向的网页已经不存在）的个数。目前如何才能发现更多的网页、如何才能令提取的网页内容更精确，如何才能进一步提高蜘蛛的抓取速度以及辨别和处理死链、孤链等的能力都是网络蜘蛛需要进一步改进的问题。　　2.1.2 建立索引数据库　　由索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。　　2.1.3 在索引数据库中搜索　　当用户输入关键词搜索后，分解搜索请求，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。　　2.1.4 对搜索结果进行处理排序　　所有相关网页针对该关键词的相关信息在索引库中都有记录，只需综合相关信息和网页级别形成相关度数值，然后进行排序，相关度越高，排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。　　2.2 中文分词　　英文是以单词为单位的，词和词之间靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文词组“Henan Normal University”，用中文则为：“河南师范大学”。计算机可以很简单通过空格知道“Normal”是一个单词，但是不能很容易明白“师”、“范”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。“河南师范大学”，分词的结果是：“河南|师范|大学”。由此可见，语义划分的合适与否直接关系到搜索引擎的搜索结果。　　　　3 语义Web 　　　　语义网(SW）是由公认的互联网之父， W3C的始创者伯纳斯?李(Tim Berners-Lee)提出的。其目标是使得Web上的信息具有计算机可以理解的语义，并使计算机能够根据语义进行判断。在SW中，信息都被赋予了明确的含义，机器能够自动地处理和集成网上可用的信息。语义网使用XML来定义定制的标签格式，用RDF的灵活性来表达数据。语义网的基本体系结构如图1，语义网的工作流程如图2。　　　　开发语义网的两个重要技术己经就绪，它们是XML(可扩展标记语言)和RDF(资源描述框架)。XML让每个人都能创建自己的标签，来对网页或页面的部分文字进行注释。它允许用户在文档中加人任意的结构，但无需说明这些结构的含意。含意由RDF来表达。RDF中的代码包含一组组的三元组，每个三元组相当像句子中的主语、动词和宾语。在RDF中，文档中的声明通常是某个事物(人、网页或其他任何东西)对于某些值(另一个人、另一网页)拥有某些属性(例如“是姐姐”，“是作者”)。这种结构用于描述由机器处理的大量数据，是非常自然的方法。　　　　4 基于语义Web的ISE雏形　　　　4.1 ISE雏形图　　ISE雏形图如图3所示。　　　　4.2 可扩展标记语言(XML) 　　XML包括XML元数据文件、Schema文件、XSLT显示文件、XLink、Xpath等一系列相关部分，但对非计算机人士，可以只看它的元数据文件。XML的特点主要是开