全文检索系统中语种识别与索引技术研究.pdfVIP

下载本文档

11
0
约5.24千字
约 3页
2017-09-01 发布于湖北
举报
版权申诉

全文检索系统中语种识别与索引技术研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

全文检索系统中语种识别与索引技术研究.pdf

Lucene并不关心数据的来源、格式，甚至文件使用说明和特殊的字母组合方式进行判断，如果该文件中只出现了维自然语言都没有关系，只要可以把它转换成文本格式。也就文特有的字母或字母组合，则可以判定该文为维文文件；同是说可以使用Lucene来索引、搜索存放在文件中的一切能够样方法也可以判断出哈文文件。如果两种语言的特殊字母或从中提取文本信息的数据格式。字母组合均有出现，则可以判断为维哈文的混排文件。口当完成对数据的预处理后，便可以构建包含若f个域另外，还可以通过维、哈文的特殊组词规则进行语种的 (Field)的相关文档(Oocument)对象。判定。例如通过前缀符及前缀符与字母组合区分维哈文等。语种识别目前在新疆已经入库的维吾尔文文献中，有一部分是利语种识别工作即标识出文件内容的语种，并确定文件是用原先的维吾尔文新文字表示的文献。维吾尔文新文字是由单一语种文件还是多语种的混排文件。英文字母或英文字母的组合来代替原来的老维文字母。对新语种识别工作首先通过对文件字符的Unicode编码的判断文字就不能简单地用Unicode编码来判定文种，可以利用新文来确定：字的几个特殊字母组合来判定文种。为此需先建立新维文字，／中文匹配正则表达式母表，在语种分析时，将其从数据库中取出进行匹配，重点 publicstaticStringchMatcher：”([＼u4e00一＼u9fa5])”：匹配新维文的特殊字母组合以及特殊的字母组词方式，尤其，／英文匹配正则表达式是英文中不会出现的字母组合，如果能匹配则可以判断出该 publicstaticStringenMatche”：([＼u0041-＼u005a＼u0061一文件为新维文。同时根据英文特有的而新文字中不会出现的＼u007a])’；／／阿拉伯文匹配正则表达式字母组合，来判断英文文件。如果两个语种的特殊组合都有 publicstaticStringarMatcher：”([＼u05F3一＼u06fq)’；出现，则可以判断出该文件为英文和新文字的混排文件。／／俄文匹配正则表达式语种识别工作为后面的分析及索引工作提供条件，根据 publicstaticStringruMatcher：”([＼u0410一＼u0451】)’；语种的不同选取不同的分析方式进行分析，并创建索引。，／维吾尔文名义形式字母匹配正则表达式 1．2．2分析并创建索引 publicstaticStringweiMatcher=”([＼u0626一＼u0628＼u062a＼u0— 在对数据进行索引处理时，Lucene会首先分析数据使之 62c＼u062e＼u0631-＼u0634＼u063a＼u0641一＼u0646＼u0648 0649＼u064a＼更加适合被索引。 u0 lf＼uO6ad＼u067e＼u06be＼u0686＼u0698＼u06c6-u＼O6c8＼uO6cb＼uO6dO＼分析(Analysis)，在 Lucene当中指的是将域(Field)文本转 uO6d5])’’：换为最基本的索引表示单元一项(Term)的过程。根据语种分析同时，需要对维吾尔文变形显现形式的代码进行匹配。的结果，对于单一语种的文件和多语种的混排文件要采用不 ∥哈萨克文名义形式字母匹配正则表达式同的处理方式。 publicstaticStringhaMatcher=”([~0627一＼u0628＼u0621＼ (1)对于单一语种的文件创建索引 uO62a＼uO62c＼uO62flu063l一＼uO634＼uO639＼u0641＼u0643一＼u0646＼对于上述语种除了汉语外，均是以字母来组成单词形式 u0648一＼u0649＼u064a＼u06af~u0