断字符和词干分析器.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
断字符和词干分析器

断字符和词干分析器用于对所有全文索引数据执行语言分析。语言分析将涉及到查找词边界(断字)和组合动词(词干分析)。断字符和词干分析器是特定于语言的,并且各语言的语言分析规则也各不相同。对于给定语言,“断字符”通过根据语言的词法规则确定词的边界位置来标识各个词。每个词(也称为“标记”)使用压缩表示形式插入全文索引以减少其大小。“词干分析器”根据该语言的规则生成特定词的变形形式(例如,“running”、“ran”和“runner”是单词“run”的不同形式)。使用特定于语言的断字符,能够使得为该语言生成的词更加准确。如果断字符用于整个语系而不是特定的子语言,将使用该语系中的主要语言。例如,使用法语断字符来处理加拿大法语文本。如果某一特定语言没有可用的断字符,将使用非特定语言断字符。使用非特定语言断字符时,词将在非特定语言字符(如空格和标点符号)处断开。断字符注册 要想使用某种语言的断字符,就必须为其进行注册。对于已注册的断字符,关联的语言资源(词干分析器、干扰词(非索引字)和同义词库文件)也将可用于全文索引和查询操作。若要查看当前在 SQL Server 中注册了断字符的语言列表,请使用以下 Transact-SQL 语句:SELECT * FROM sys.fulltext_languages如果您添加、删除或更改了断字符,则需要刷新为全文索引和查询而支持的 Microsoft Windows 区域设置标识符 (LCID) 列表。有关详细信息,请参阅如何更改已注册的断字符和筛选器的列表 (Transact-SQL)。SQL Server 2008 附带有若干个经过许可的第三方断字符。您可以手动加载若干种语言(丹麦语、波兰语和土耳其语)的附加的第三方断字符(以及词干分析器)。有关详细信息,请参阅如何加载经过许可的第三方断字符。Full-Text Language 选项 对于 SQL Server 的本地化版本,SQL Server 安装程序将把 default full-text language 选项设置为服务器的语言(如果存在合适的匹配项)。对于 SQL Server 的非本地化版本,default full-text language 选项为“英语”。创建或修改全文索引时,可以为每个全文索引列指定不同的语言。如果未指定列的语言,默认值是配置选项 default full-text language 的值。有关详细信息,请参阅 default full-text language 选项。注意 在单个全文查询函数子句中列出的所有列必须使用同一语言,除非在查询中指定了 LANGUAGE 选项。所查询的用于全文索引列的语言确定了对全文查询谓词(CONTAINS 和 FREETEXT)和函数(CONTAINSTABLE 和 FREETEXTTABLE)的参数执行的语言分析。对列创建全文索引时选择语言 创建全文索引时,建议为每个索引列都指定一种语言。如果未为列指定语言,则将使用系统默认语言。某列的语言确定使用什么断字符和词干分析器对该列创建索引。另外,该语言的同义词库文件将由针对相应列的全文查询使用。如果要选择用于创建全文索引的列语言,有几个事项需要注意。这些注意事项均与全文引擎如何对文本进行词汇切分再编制其索引有关。有关详细信息,请参阅创建全文索引时选择语言的最佳实践。查看列的断字符语言 如何查看或更改全文索引的属性 (SQL Server Management Studio) sys.fulltext_index_columns (Transact-SQL) other复制 SELECT language_id AS LCID FROM sys.fulltext_index_columns;SQL Server 2008 中新断字符的影响 SQL Server 2008 包括 50 多种不同语言的断字符,其中的 23 种也存在于 SQL Server 2005 中。只有英语、朝鲜语、泰语和中文(所有形式)的断字符保持不变。对于其他语言,SQL Server 2008 引入了新一代断字符,这些断字符与早期断字符相比具有更好的语言规则并且更加准确。新断字符的行为可能与导入的 SQL Server 2005 全文索引中的断字符行为稍有不同。如果全文目录是在 SQL Server 2005 数据库升级到 SQL Server 2008 时导入的,这一点将非常重要。该全文目录中全文索引使用的一种或多种语言现在可能与新断字符关联。有关详细信息,请参阅全文搜索升级。SQL Server 2005 中支持的语言的断字符版本 只有英语、朝鲜语、泰语和中文(所有形式)的断字符保持不变。下表列出了存在于 SQL Server 2005 中的断字符,并指示

文档评论(0)

sb250103 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档