- 4
- 0
- 约2.49千字
- 约 7页
- 2017-09-02 发布于天津
- 举报
全能检索者全文检索站内搜索系统 - read
全文检索者站内搜索系统门户版2.0标准版介绍
FullSearcher是真正的搜索引擎,特点是:准确、快速、海量。适合于为门户网站、企业网站提供站内全文检索服务。(单机支持300~500万数据,300万/日以内的检索需求)
FullSearcher具有支持海量数据的多并发的快速查询、按照相关性排序、关键词飘红、动态摘要、支持常用的搜索语法、等功能和特点。
FullSearcher提供完整的应用,除了数据的导入以外,您无须再为搜索投入二次研发工作(当然管理是非常必要的)。
FullSearcher提供全方位的广告平台支持,让你立刻获得利益。
FullSearcher完善的售后服务免去你的后顾之忧。
FullSearcher的运行平台是.net,但是无论您现在使用的是何种平台何种数据库,甚至是多种平台多种数据库都可以通过简单的数据转移来实现所有数据的全文检索。
我们的理念:为网友提供服务,为客户创造价值,高品质的用户体验。
管理的便捷性:普通编辑经过简单培训即可完成日常管理维护工作。
FullSearcher(FS)工作流程简图:
FullSearcher(FS)系统性能
硬件最优环境:双P4 CPU,2G以上内存,SCSI硬盘的服务器。
软件环境:windows 2000 server + .netframework + SQL server2000(接口数据库和信息存储用)
数据环境:100万篇文档,每篇1KB大小左右。(如果文档更大,数量更多需要添加更多的内存)
服务器空闲:服务器不在进行数据处理(比如:不在进行数据库同步、不在进行累加索引等工作)。
检索环境:不添加其他扩展功能(比如同义词搜索、专题优先排列、复合检索等)。每次出10个结果。单词检索。非多重栏目选择。不进行数据库读写。
性能:
支持每秒20次以上并发的全文检索。
增加文章数量到300万篇对性能的影响不是很大。
适当增加文章篇幅对效率影响不大。
采用更快主频的CPU和增加CPU个数对性能会有比较好提高。
以上是最优环境下的数据,在实际运行过程中,通过cache结果,在普通PC服务器下可完成每日数百万次的全文检索。
对于要求不高的需求,在虚拟主机上即可完成。对于绝大多数应用,除了硬盘你不需要额外的硬件投入甚至可以节约出更多的cpu资源(撤换您的基于数据库的检索系统可以节约出更多cpu资源)。
FullSearcher(FS)系统功能
用户检索行为可记录到数据库,供客户分析(词汇分析系统由用户自行根据自己的需求设计开发,FS不提供分析程序)。
支持两个关键词或更多组合搜索(如:“地震 日本”)
去除搜索(如:“地震 -日本”)
动态摘要的提取
关键词飘红
按时间排序(每篇文档都需要有时间字段)和按相关性排序。
支持一定时间内的搜索,如:一天、一周、一月、三月、半年、一年……、全部
大小写不敏感,全角半角等字符不敏感(如:“a”=“a”;“-”=“-”),汉字要出全,不出现半个汉字的bug
剔除空格功能(如:“ 日本 地震 ”等于“日本 地震”)
搜索结果先出专题(栏目),比如“伊拉克”,如果有伊拉克专题,那么第一个结果就是伊拉克专题的链接和介绍。(需要栏目简介数据支持)
搜索结果的下面标明相关的栏目链接,由用户自定义。推荐:一级大栏目名称二级栏目名称三级栏目名称四级栏目名称。
搜索结果动态摘要的提取。排除文章内的链接、图片、文章字体颜色等的影响。(Html解析)
选取文档中存在的适合缩略的图片进行图片缩略图的提取,如有图片,在摘要处的最前面显示图片缩略图。
模糊检索。建设同义词表,比如:“性”的同义词有“sex”等,选择模糊检索的时候这些同义词是完全平等的地位。后台有同义词表,用户可在后台进行管理。
选择搜索范围的时候栏目可多选。
根据用户需求累加索引和重新索引可自定义自动执行。
对于热门关键词的搜索结果进行cache,保证应付大量的突发检索。
搜索结果右边,体现分类信息,根据关键词独立匹配,随机排列。Banner完全匹配出现相关广告Banner。实现方法在分类信息管理系统进行管理。
搜索结果页面UI示意图:(可调整,图片缩略未有显示)
使用FullSearcher全文检索者站内搜索系统五步曲:
第一步,将您需要提供的检索的信息按照要求导入至指定的数据库中(需要具有定时导功能)。信息包括:栏目id(数字)、url、标题、内容(标题和内容可以根据您的需要进行合并,比如有英文标题和中文标题,您可以合并成一个标题, 内容可能有好几个字段,您也可以根据需要合并成一个字段)、栏目归属信息、时间。(用户的自主性非常大)
第二步,后台进行初始化等设置。 维护同义词表,添加相关同义词。(这次添加好后一般不用再添加了,再添加的同义词在重新索引后生效)
第三步,后台维
原创力文档

文档评论(0)