基于数据挖掘技术的语义搜索引擎的设计与实现,文献综述.doc

基于数据挖掘技术的语义搜索引擎的设计与实现,文献综述.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文献综述报告 软件工程 2008542020 金海月 1 国内外研究综述 1.1 国内研究综述 搜索引擎也是目前Internet 对信息资源进行组织的主要方式。搜索引擎由网上机器人(Spider 或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。由于不需要人们的介入,速度得以大大的提高。其覆盖面和及时性也得以大大的提高。Spider 或Robot 是一种软件,它沿着WWW文件的链接在网上漫游,记录RUL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和RUL、文件的大小、语种以及词出现的频率。它的运行方式为:从一个或一组RUL 开始,访问该RUL 所指HTML 文件中所有的RUL 锚链,然后再以这些新的RUL 为起始点,继续进行本地索引,直到再也没有满足条件的新的RUL 为止。在记录新的RUL时,可以进行分析和判断,从中去掉不需要或不想要的RUL,这不但提高了本地索引的速度,也减少了索引文件在本地所占用的磁盘空间,搜索引擎将HTML 格式文件取到本地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分 (如关键字和一些指定词等 )存储到数据库中,形成本地查询数据库,以后再查时就不必到远地去重新获取HTML 格式文件了。搜索引擎的数据检索方式主要是关键字的配方式:如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等。能为用户提供全文索引、约束性检索、基于布尔关系的查询方式,并对查询结果根据某种算法和规则评分和排序。引擎系统虽然能在WWW 信息资源范围内自动发现新的信息,对其所覆盖的资料进行自动更新,并根据检索规则和从其他服务器上得到的数据类型对进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,根据用户的请求返回相应的结果,但是由于系统需将HTML 文件传送至本地然后分析,大量占用昂贵的网络带宽和CPU 资源,资源消耗过大,增加被搜索结点的负担;又由于链路效率太低,对一些连接代价很大的获得索引,难免有不能及时加入的新WWW 地址。此外,由于各搜索引擎标引方式没有统一的规范,有的对网页全文进行索引,有的仅标引网页的标题、RUL、关键段落的前几个单词或文本的前 100 个词,生成关键词的技术也不一样 ,有的支持MetaTags,接受网页制作者自定义关键词和摘要,有的则不支持 MetaTags,仅仅利用网页的前几行字作为摘要。此外,搜索引擎大多采用自然语言标引和检索,没有受控词表,同义词和近义词得不到控制,词间的关系得不到揭示。因此 ,搜索引擎的信息组织与标引缺乏控制,信息查询的命中率、准确率、查全率差强人意,往往是输入一个检索式,得到一大堆网页地址 ,但其中大部分是冗余信息。 1.2 国外研究综述 网络是随着搜索发展而来的。网络越发展情报的数量日益剧增,搜索引擎随着用户在无数的信息中为寻找用户所需要的信息而更加发展。 1990年Tim Berners-Lee为了研究内容的广泛地交换和共享提出了WWW(world wide web)公开了最初的浏览器和网络服务器,代表今天的互联网其意义的网络开始后搜索引擎开始登场。1994年由人工直接分类的导航服务的“Yahoo”,1995年登场的“Altavista”为开始搜索引擎急速发展。但是跟着信息的增加,使得用户不得不一一确认搜索的结果。 1998年斯坦福大学的Larry Page和Sergey Brin为了使搜索引擎更加有效地作用,认为需要新的概念,为了取得更高的准确度,在web中导入了民主的方式。为掌握页面的重要度,数了在其他web页中的指向这个页面的入站链接(inbound link)的数,导入了以此为基础设定的页面链接的概念。 2 . 数据挖掘过程模型研究 人们进行的关于知识发现的研究是为了将知识发现的研究成果应用于实际数据处理中,为科学的决策提供支持。但目前所进行的关于知识发现的研究,大多只着眼于对数据挖掘的研究,而忽视了其他方面。而事实上,知识发现首先是一个处理过程,如果我们仅仅着重于数据挖掘,可能就看不到实际工作中数据处理过程中的数据提取、组织和显示方式的难度。数据挖掘所完成的工作对于整个知识发现过程来说,并不是占据绝大部分,因此对知识发现中其他阶段及处理过程的研究也非常重要,建立合适的过程模型能将各个处理阶段有机地结合在一起,以便于开发及使用知识发现应用系统。 用户们需要在日益爆满的信息中快速查找准确的文档。Syntactia结构中心的搜索已经不能满足其全部要求了。Web2.0的影响下基于用户标签数据的Wikipedia, Flicker, del.icio.us等的专门的搜索引擎已经登场,这提高了用户的需求水准,再重新了解了查询的意思,在意思的水准下检

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档