- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要
在电子商务方兴未艾的今天,企业上网不但是为了展示企业形象,提高知名度;也意味
着无穷的商机与财富。而内部网Intranet则为企业带来了全新的沟通方式和管理理念。因此
构建企业Web站点已经排上了许多企业信息部门的日程。Web的优点在于可以方便的展示
大量信息,但同时也带来了信息的泛滥使得寻找有效信息非常困难。为此,好的企业网站都
拥有强大的搜索引擎,使得网站更加友好和便利。对于有政策法规、合同定单等大量文档上
网的企业网站,信息搜索的服务必不可少。
Index
Server是专门为企业网站设计的专业搜索引擎,利用它可以非常轻松的在网站中
加入功能强大的信息搜索功能。并且IndexServer搜索的文件不局限于HTML格式,还支持
更多的文件格式。搜索范围可以是存放在本地服务器中的内容,也可以是网络中其他机器的
共享资源,包括1NTERNET中的资源。搜索时除了文档中的关键字词以外,还可以就文件
大小、修改日期、作者等属性进行搜索。此外IndexServer还支持英文、简体中文、德语、
法语、臼语等语种,无须编程,就可在网站中实现多语种的搜索引擎。由于IndexServer是
零维护设计,故只需启动IndexServer服务,搜索引擎就会自动运行。而在Web服务器端,
需要加入与IndexServer连接的页面。传统Index
Server的工作过程由浏览器通过HTML文
档的FORM表单向Web服务器发出请求开始,W曲服务器通过一个类似于数据库接口的专
Server
Server连接,将客户的请求转换成IndexServer理解的语句。Index
用文件.IDQ与Index
再将查询结果按照模板文件HTX定义的格式组织成HTML文档,通过Web服务器返回给
浏览器。这种方式称为HTML/IDQ/HTX方式,需要三个文件配合完成查询。使用这种方式
Server
不能对查询结果进行处理,并且模板文件HTX格式单一。因此微软在Index2.0中加
强大的脚本语言操纵,因此Web开发者可以设计条件复杂的查询,并能更加精确的处理查
询结果。
本文围绕站内搜索这一课题,对Index戤.-rver索引技术、数据采集这两大站内搜索的核
心支撑技术进行了深入细致的研究与分析,并在对google、百度、搜狗等已有站内搜索产品
和市场详细调研的基础上实现了一个实时站内搜索系统。本文所做的主要工作、技术难点与
创新处如下:
1.大量查阅了站内搜索的相关资料,追溯了站内搜索兴起的原因及其发展过程,认真
学习了站内搜索的体系结构、架构过程及应用实旌的知识,深入领会了站内搜索的
概念及其核心支撑技术。
2.深入细致的学习了IndexServer索引的概念、特点以及IndexServer系统的体系结构,
并研究了数据的索引过程:过滤,字分离和规范化,并对实现索引查询的数据流程、
体系结构、查询后的结果集以及将Index
server索引服务器的数据库连接器做为二次
开发的类库进行了详细的分析与研究,而且也从应用的角度对Indexserver服务器中
的时间排序、精确排序做了深入的学习。
3.认真学习了SQL数据库的相关知识,分析了数据库的体系结构,并重点学习了如何
实现对数据库的监控和安全访问。
Studio2003开发【具,详细的研究了Windows服务的开发模式,
4.深入学习Visual
长避短,不仅大大提高了生产效率,而且明晰了系统结构,为系统稳定安全的运行
提供了保障。
3
5.深入的学习了网络通信编程技术,以及TCP/IP协议和信息包的知识,并将之用在数
据采集的C/S系统中。
6.基于上述原理和已有的研究成果,设计并实现了站内搜索系统,该系统具有的特点
与创新如下:
1) 本系统中数据采集子系统采用了C/S结构,系统的所
文档评论(0)