索源网 SiteSearch 站内搜索引擎.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
索源网 SiteSearch 站内搜索引擎

SiteSearch 站内搜索引擎 产品白皮书 / 索源网 SiteSearch 站内搜索引擎 产品白皮书 1 引言 当前的互联网,搜索引擎已经成为最普遍的应用。无论大、中、小网站,构建一个网站 内容的搜索引擎,方便用户查询、使用站内信息,提高用户使用体验,已成为网站发展的必 然。由于搜索引擎技术的专业性和封闭性,网站在构筑站内搜索引擎时,通常的做法是采用 数据库查询的方式进行,更进一步的做法是使用开源软件来构建。 数据库查询的劣势是显而易见的,除了查询效率低,高并发检索访问对数据库造成的压 力也是网站数据库难以承担的。而使用开源软件,则往往会受到功能上的限制,无法根据网 站特殊的需求构建出令人满意的搜索平台。 索源网SiteSearch 站内搜索引擎产品,能够有效解决网站在构建站内搜索引擎时遇到的 问题。其利用完全自主开发的技术,成熟的搜索引擎架构,可定制的搜索方案,灵活的查询 方式,多样化的结果呈现方式,可以使网站轻松的构造出成本低廉、使用方便的站内搜索引 擎。 2 产品简介 SiteSearch 站内搜索引擎是专为网站站内搜索而开发的工具。它使用爬虫在网站内采 集、解析指定信息,或从网站的数据库直接读取数据,然后将采集到的信息统一建立索引, 提供搜索服务。使用SiteSearch,搜什么、如何搜、结果如何展现,都由网站自行控制,您 可以便捷地打造出独具特色的站内搜索,真正的全文检索。 3 版本划分 基本版 单机标准版 集群标准版 部署方式 单机 单机 集群 检索库个数 1 10 10 总数据条数 1000 万 10 亿 单结点10 亿 词库扩展功能 无 有 有 4 系统架构 V-Search 主要由网络信息采集引擎(或数据库采集引擎)、全文检索系统和Web 检索访 问几部分组成。 1 北京索源无限科技有限公司 2009-03 SiteSearch 站内搜索引擎 产品白皮书 / 网站 数据库 爬虫1 爬虫2 爬虫N 网络信息采集引擎 数据库采集引擎 索引 缓存 全文检索系统 配置 模版 Web 检索访问 5 运行平台 Microsoft Windows 2000 / XP / Vista / 2000 Server / 2003 Server (32 位) 6 功能特点 与网站或数据库直接对接 站内搜索可以使用爬虫技术从网站直接采集非结构化数据,也可以与数据库对接,采集 结构化数据。。与数据库接口采用轻量级方式,不对网站数据库带来额外访问压力。 可定制的数据解析和抽取 不同网站往往对数据解析和抽取有独特的需求。使用索源的数据挖掘、抽取关键技术, 网页内的信息,无论以何种发布形式、何种编码方式存在,都能够提供有效的数据解析、抽 取、编码转换。用户可以定制特殊的解析和抽取需求。 灵活部署应用 根据网站规模和数据量,可以灵活选择单机、集群部署方

文档评论(0)

liwenhua00 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档