Jerin论文智能搜索引擎.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Jerin论文智能搜索引擎.doc

目录 第1章 引 言 2 1.1 搜索引擎的发展和研究现状 2 1.2 中文自然语言理解的现状及问题 3 第2章 搜索引擎理论及技术分析 4 2.1 网络蜘蛛组件 4 2.2 搜索组件 4 2.2.1 信息获取过程概要 4 2.2.2 信息获取模型 4 2.2.3 文本预处理 6 2.2.4 索引结构 7 第3章 搜索中的智能 8 3.1 中文自然语言理解 8 3.1.1 语义体系概论 8 3.1.2 知网 9 3.2 涌现 13 3.3 人性化与垂直搜索 14 第4章 搜索引擎系统的设计及实现 16 4.1 开发环境简介 16 4.1.1 Visual C# 2005 16 4.1.2 SQL Server 2005 16 4.1.3 XML 16 4.2 语料库和知识库的构建 17 4.3 整体设计 21 4.4 几个基本类库 22 4.5 系统组件 24 4.5.1 语料库管理 24 4.5.2 文献收集和分析 26 4.5.3 搜索 28 结论 31 参考文献 33 内容摘要: 智能搜索是当今集计算机技术、自然语言处理和互联网应用的一个热点课题。 本次毕业设计初步成功的实现了一个简单的桌面型智能搜索引擎,本系统不包含网络蜘蛛,只有搜索部分,具体包括语料库、预料分析、文献收集和搜索等几部分。语料库包含各类词、词的义项、语义分类和文献,存储在数据库中,对象的规则和实例以XML格式存储。词的义项采用的是知网的定义,语义分类是在973分类体系的基础上改进的。由于没有实现网络蜘蛛,手工进行收集文献。 目前,本系统还很不完善,语料库中的知识和搜索尚不能很好地整合,但是本次毕业设计提出了整体的思路,比如语料库的构建、词的相关度计算以及对搜索中的智能的理解等,具有一定的应用价值。 关键词:智能搜索引擎;语料库;知网;词相关度 引 言 一座图书馆的所藏资料已经让人觉得如同身处知识的海洋,对于互联网来说资料更是以亿来计算,而且网络上的文献的数据组织结构并不完善,即使有了XML等技术的应用,也因为历史数据多为非结构化文件保存,且这种结构的文件非常多,从而使得搜索引擎成为一项必不可少的工具。 1. 搜索引擎的发展和研究现状 早在互联网出现之前就有了第一个搜索引擎Gopher Search,随后如雨后春笋般出现了大量的搜索引擎,如Yahoo、Alta Vista、Ask Jeeves、Google等,互联网的出现使这种情况尤为明显。而在国内早期尝试搜索引擎业务的是Yahoo、搜狐和Openmind,随后百度作为Openmind的 竞争者出现。发展到现在,国内的主要搜索引擎有百度、Google/谷歌、Yahoo/Yisou、搜狐/搜狗、新浪/爱问以及中搜等。 虽然出现了如此众多的搜索引擎,但绝大多数都属于前两代。第一代搜索引擎的特征是目录搜索,受传统的图书情报管理方法的影响,采用类似图书文献分类的方式对网络文献进行分类,再进行检索,主要代表是Yahoo。第二代搜索引擎在看到了第一代搜索引擎的弊端后,创新性地提出了页面重要性分析技术 Page Rank技术和超链分析技术等,将最重要的页面优先呈现给用户,代表是Google。与Yahoo不同的是,Google并不对文献进行分类,而是从文献中识别出“关键字”来,然后建立倒排索引。 第二代搜索引擎为了弥补自己的不足,纷纷推出了附加服务—非常类似于垂直搜索的功能:对某一领域进行搜索。比如:MP3、图片、大学、地图、桌面搜索等。典型的是,Google推出了学术、图书、Code搜索服务,而百度推出了教育网站、少儿、国学搜索等。除此之外,为了网罗用户同时提高搜索结果的可靠性,各大搜索网站都推出了SNS(社会网络服务)系统,比如新浪爱问的“知识人”,百度的“知道”,Yahoo的“知识堂”等。 目前已经提出了第三、四代搜索引擎的概念,虽然尚不统一,但是总体来看,下一代搜索引擎的特征是很明显的: a.智能化。最重要的体现是理解人类语言,尤其是汉语这种歧义性很重的自然语言。 b.个性化。投用户所好,满足用户的需求。 c.能处理深层网页(Deep Web)。所谓深层搜索是指搜索那些放在数据库中的信息。 e.必须是跨媒体的,也就是说用户通过统一的界面和单一的提问,就能够获得以各种媒体形式存在的语义相似的结果。 华人计算语言学博士乔鸿亮发明了第三代搜索引擎lexxe,其特征是“语言计算”(Linguistic Computing)。“语言计算”的优势是具备人工智能,能识别不同类型语句,进行语法分析,判断用户意图,从而提供类似百科全书的直接有效答案。lexxe引擎把用户打入文字当作语言来处理,而不是作为符号来处理。它的计算对象直接是语言,而不是一般符号,因为它具备了语言理解能力。不足是lexxe目前

您可能关注的文档

文档评论(0)

ailuojue1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档