全文检索系统中语种识别与索引技术研究.pdfVIP

全文检索系统中语种识别与索引技术研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
全文检索系统中语种识别与索引技术研究.pdf

Lucene并不关心数据的来源、格式,甚至文件使用说明 和特殊的字母组合方式进行判断,如果该文件中只出现了维 自然语言都没有关系,只要可以把它转换成文本格式。也就 文特有的字母或字母组合,则可以判定该文为维文文件;同 是说可以使用Lucene来索引、搜索存放在文件中的一切能够 样方法也可以判断出哈文文件。如果两种语言的特殊字母或 从中提取文本信息的数据格式 。 字母组合均有 出现 ,则可以判断为维哈文的混排文件 。口 当完成对数据的预处理后,便可以构建包含若f个域 另外,还可以通过维、哈文的特殊组词规则进行语种的 (Field)的相关文档(Oocument)对象。 判定。例如通过前缀符及前缀符与字母组合区分维哈文等。 语种识别 目前在新疆已经入库的维吾尔文文献中,有一部分是利 语种识别工作即标识出文件内容的语种,并确定文件是 用原先的维吾尔文新文字表示的文献。维吾尔文新文字是 由 单一语种文件还是多语种的混排文件。 英文字母或英文字母的组合来代替原来的老维文字母。对新 语种识别工作首先通过对文件字符的Unicode编码的判断 文字就不能简单地用Unicode编码来判定文种,可以利用新文 来确定: 字的几个特殊字母组合来判定文种。为此需先建立新维文字 ,/中文匹配正则表达式 母表,在语种分析时,将其从数据库中取出进行匹配,重点 publicstaticStringchMatcher:”([\u4e00一\u9fa5])”: 匹配新维文的特殊字母组合以及特殊的字母组词方式,尤其 ,/英文匹配正则表达式 是英文中不会出现的字母组合,如果能匹配则可以判断出该 publicstaticStringenMatche”:([\u0041-\u005a\u0061一 文件为新维文。同时根据英文特有的而新文字中不会出现的 \u007a])’; //阿拉伯文匹配正则表达式 字母组合,来判断英文文件。如果两个语种的特殊组合都有 publicstaticStringarMatcher:”([\u05F3一\u06fq)’; 出现,则可以判断出该文件为英文和新文字的混排文件。 //俄文匹配正则表达式 语种识别工作为后面的分析及索引工作提供条件,根据 publicstaticStringruMatcher:”([\u0410一\u0451】)’; 语种的不同选取不同的分析方式进行分析,并创建索引。 ,/维吾尔文名义形式字母匹配正则表达式 1.2.2分析并创建索引 publicstaticStringweiMatcher=”([\u0626一\u0628\u062a\u0— 在对数据进行索引处理时,Lucene会首先分析数据使之 62c\u062e\u0631-\u0634\u063a\u0641一\u0646\u0648 0649\u064a\ 更加适合被索引。 u0 lf\uO6ad\u067e\u06be\u0686\u0698\u06c6-u\O6c8\uO6cb\uO6dO\ 分析(Analysis),在 Lucene当中指的是将域(Field)文本转 uO6d5])’’: 换为最基本的索引表示单元一项(Term)的过程。根据语种分析 同时,需要对维吾尔文变形显现形式的代码进行匹配 。 的结果,对于单一语种的文件和多语种的混排文件要采用不 ∥哈萨克文名义形式字母匹配正则表达式 同的处理方式。 publicstaticStringhaMatcher=”([~0627一\u0628\u0621\ (1)对于单一语种的文件创建索引 uO62a\uO62c\uO62flu063l一\uO634\uO639\u0641\u0643一\u0646\ 对于上述语种除了汉语外,均是以字母来组成单词形式 u0648一\u0649\u064a\u06af~u0

文档评论(0)

o25ju79u8h769hj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档