建立中小型高效快速的模糊查询.docVIP

  • 8
  • 0
  • 约6.34千字
  • 约 10页
  • 2018-03-16 发布于北京
  • 举报
建立中小型高效快速的模糊查询   摘要:提出一种新的索引结构,利用中间表、复合索引、索引词库等技术准确的获得多个表中所需要的信息。在不需要构建复杂的数据库全文索引的情况下,这种新的结构实现起来更方便并且容易维护,不仅能大大提高多表查询和分词效率,还能在模糊查询的基础上产生多种变换。结合数据挖掘,相对于传统多表查询语句也更精准快捷。   关键词:模糊查询;索引技术;词库   中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)16-3777-03   Create A Fuzzy Query Structure Rapid And Efficient For Small Enterprise   XIE Yu-bin,TANG Qi-tao   (School of Computer Science, Changsha Medical University, Changsha 410219, China)   Abstract: It brings out a new index structure and makes use of the techniques such as intermediate chart,composite index,and thesaurus index to accurately obtain the required information. This new structure can be realized by a more convenient way and also be easier to maintain without building a complex database for full text index,it not only increases the efficiency of the Multi-Table Query and word category,but also brings about a lot of variations in the basis of Fuzzy query.By combining data interception,it is more accurate and faster than traditional Multi-Table Query for sentence inquiry.   Key words: fuzzy query; index; lexicon   1 绪论   在网络蓬勃发展的今天,大部分中小型网站或企业都需要站内模糊查询的功能,用户可以从某个网站内或某个企业得到自己需要的信息。一个好的查询系统能更快速的获得更多、更准确的信息,提高企业或者个人办事效率。对于中小型网站或企业,传统的多表查询方法一般还是使用sql语句在数据库中直接查询,当需要模糊查询时,这种查询方法需要遍历文本中的每个字来寻找匹配的语句且语句结构比较笨拙,对于服务器来说,资源占用量是相当大的,即使使用索引技术,也并不能充分发挥作用及提高查询速度。更不要说用这种方法去查询拼音与之匹配的关键信息了,而使用大型搜索引擎的方法又太不切实际了。   2 索引词库的建立   2.1 词库结构的构建   词库是词语的集合,也是查询中获得文字信息不可或缺的一部分。在数据库中,词库一般以表的形式存在。一个大型查询系统中,词库也只是存在于索引的一部分,不是相对独立的。当我们查询一条记   录时,并不需要马上就定位到这条数据所在表中的位置。往往在asp.net开发的查询网站中,页面上只需要显示出这个词语相关概要信息(包括查询关键字的信息),要看具体内容时,还需要点开相关链接。也就是说不一定先要用自带的全文索引去定位这个位置,只要在点开链接的时候,传递这个信息所在位置信息参数过去就行了。而访问一个词库就不仅仅是访问位置,一个词库表本身也可以容纳大量信息。因此,在定义词库的时候,建立了如下词库结构。   1)建立一个真词库表。   表1为真词库表。   此表是记录下词语及词语被使用的相关信息,和一般词库作用相同;“首字拼音头”、“次字拼音头”、“长度”这些是为了加快查询速度建立索引用的(也可以加个ID列来减少建立伪词库时使用的存储空间,但是查询就会牵涉到两个表而增加耗时,具体情况看数据库大小和词库大小定)。   2)建立一个伪词库表。   表2为伪词库表。   伪词库表和词库表结构差别不大,是用来记录词语出现位置及相关信息的,其相同字段部分也是为了建立索引用的。与词库表不同的是,由于一个词语会在多处位置出现,相同的词语会重复多次。在这个表里还多建立了一个“词条” 索引,为的就是消除重复词语消耗的

文档评论(0)

1亿VIP精品文档

相关文档