- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
本人声明
我声明,本论文及其研究工作由本人在导师指导下独立完成,完成论文所用的。
一切资料均已在参考文献中列出。
作者:汪杨林
签字:形扬抓
2008年4月15日
五邑大学硕士论文
第一章绪论
1.1 搜索引擎的历史
随着互联网网页数量的迅速增加,信息也越来越分散,用户想要搜索特定的信
息变得十分困难,搜索引擎正是为了解决这个问题而出现的技术,它以一定的策略
在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供
检索服务,从而起到信息导航的目的。
搜索引擎包括信息搜集、信息整理和用户查询三部分。从用户的角度来看,它
就是一个帮助人们进行信息检索的工具。搜索引擎提供的导航服务己经成为互联网
上非常重要的网络服务,提供搜索服务的站点也被美誉为“网络门户”。 因而搜索
引擎技术成为计算机工业界和学术界争相研究、开发的对象。
university
学生Alan Deutsch、Bill
Emtage、Peter Wheelan发明了Archie(ArchieFAQ),它是所
有搜索引擎的祖先。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,
但它还不是真正的搜索引擎。
最早意义上的搜索引擎出现于1994年7月【l】,当时Michael
Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。
是第一个支持自然语言搜索的搜索引擎,也是第一个实现高级搜索语法的搜索引擎
程序、搜索ActiveX控件等。
Refresh、多文档格
1998年,Google在PageRank、动态摘要、网页快照:Daily
式支持、地图、股票、词典、寻人等集成搜索、多语言支持、用户界面等功能上的
革新,象AitaVista一样,对搜索引擎领域具有非常深远的影响。
1.2 搜索引擎的现状
目前搜索引擎领域的商业开发非常活跃,各大搜索引擎公司都在投巨资研制搜
索引擎系统,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品,搜索引擎己
经成为信息领域的产业之一。在这种情况下,对搜索引擎技术相关领域的学术研究
五邑大学硕士论文
得到了大学和科研机构的重视,如Stanford大学在其数字图书馆项目中开发了
Google搜索引擎13】,在W曲信息的高效搜索、文档的相关度评价、大规模索引等方
面作了深入的研究,取得了很好的成果。
国内在文本分类方向上起步较晚,由于中文与英文存在较大的差异,因此不能
照搬国外的研究成果,有必要研究并开发出实用化的中文文本分类系统【4】。国内对
文本表示模型及文本分类算法方面的研究较多,其中一项值得注意的研究是在采用
试,摆脱了对词典的依赖,实现文本分类的领域无关性和时间无关性,取得了一定
的成果。
到目前为止,国内先后有北京大学、清华大学、国家智能研究中心等高校和研
究单位对搜索引擎技术开展研究,并开发出了几个较好的系统,如由北京大学计算
机系网络研究室开发的“天网中英文搜索引擎、百度公司的“百度搜索引擎等。
由于汉语本身的特点,仍然存在很多待解决的问题,如分词效果不理想、缺乏
统一的中文语料库、特征提取算法及文本分类算法的研究不十分完整、测试标准不
统一等问题。
1.3 Java技术介绍
大会上,又发布了Java1.2版,这就是常说的Java
2,它以功能全面、具有高度扩
展能力的新版本替换了原来的GUI界面和图形工具包。
1999年,Sun宣布了以
原创力文档


文档评论(0)