SQL Server 2000 全文检索技术论文.docVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SQL Server 2000 全文检索技术论文.doc

  SQL Server 2000 全文检索技术论文 1 全文检索及其发展状况 随着海量信息的出现以及计算机存储技术的发展,文献数据库正由书目数据库向全文数据库转变。这一转变使得全文检索技术得到空前的发展。 常用的实现全文检索的方法主要有以下两种: 第一种方法是不对数据库建立索引而直接对文章进行匹配的方法。这种方法由于没有建立索引库,因此所占空间较少,但同时正是因为它没有索引库,所以在进行全文匹配时要花费大量的时间。 第二种方法则是一种为全文建立倒排索引库的方法。这种方法可以大大节省检索的时间。但同时,这种方法需要占用一定的存储空间来建立索引库。目前,国内外对全文检索的研究可以说是达到一个高潮。许多研究机构和商业组织都在进行这方面的研究。国际最具影响力的全文检索评估机构当属TREC(Text Retrieval Conference)。它是由美国技术和标准研究所(NIST)和美国高级研究计划局(DARPA)共同举办、自1992年以来每年一次的全文检索评估会议,会议参加者带来研究的检索系统以供专家进行评估。传统的信息单位.freeln); (5)为表创建全文索引(sp_fulltexLtable); (6)填充全文目录(sp_fulltext_catalog)。 下面举例说明: 在本例中,对test数据库book表中title列和notes列建立全文索引。 //首先先启动SQL Server的全文搜索服务。 use test //打开数据库 go //打开全文索引支持 execute sp_fulltext_database ‘enable’ //建立全文目录ft_pubs execute sp_fulltext_catalog ‘ft_test’,‘create’ //为titles表建立全文索引数据元,pk_title为book表中由主键所建立的唯一索引,此参数必须。 execute sp_fulltext_table ‘book’,‘create’,‘ft_test’,.freeln ‘book’,‘title’,‘ add’ execute sp_fulltext_ column ‘book’,‘notes’,‘add’ //建立全文索引 execute sp_fulltexLtable ‘book’,‘activate’ //填充全文索引目录 execute sp_fulltext_ catalog ‘ft_test’,‘start_ full’ go 至此,全文索引建立完毕。 3.2 全文检索 SQL Server 2000提供的全文检索语句主要有CONTAINS和FREETEXT。CONTAINS语句的功能是在表所有列或指定列中搜索: ●一个字或短语; ●一个字或短语的前缀; ●与一个字相近的另一个字; ●一个字的派生字; ●一个重复出现的字。 CONTAINS语句的语法格式为: CONTAINS({column *}),‘’) 其中,column说明被搜索列,使用时说明对表中所有全文索引列莲行搜索 Contains_ search_ condition说明CONTAINS语句的搜索内容,其语法格式为: {||| |) {|ANDIAND NOT|OR}} .n 下面就simple_term和predix_term参数做一简要说明: simple— term指出CONTAINS语句所搜索的单字或短语,当为一个短语时,必须使用双引号作为定界符。其格式为: {说明CONTAINS语句所搜索的字或短语前缀,其格式为: {“ book n * },‘freetext_string’) 其中,column说明被搜索列,使用*时说明对表中的所有全文索引列进行搜索。Freetext_string参数指出所搜索的自由文本格式字符串。 例如,下面语句使用FREETEXT语句搜索book表中包含Successful Life字符串的数据行: select title,notes from book )过滤的机制。在“.MSSQL\TDATA\SQL Server\config”目录下,有一个“noise.dat”文件类似于停用词表,可以对一些没有检索意义的词如a、you等进行过滤而不建立索引。用户自己也可以对该词表进行增补,以过滤一些词。同时,我发现SQLServer2000的全文检索存在一些不足。如当用户对全文索引过的字段进行修改后,需要用户进行手工的“填充”,而不能机器自动完成这一步,另外该系统对计算机硬件要求较高等等。随着计算机硬件的发展以及SQL Server软件本身的不断完善,我相信这些不足是可以得到改善的。

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档