- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
全文检索系统中语种识别与索引技术研究.pdf
Lucene并不关心数据的来源、格式,甚至文件使用说明 和特殊的字母组合方式进行判断,如果该文件中只出现了维
自然语言都没有关系,只要可以把它转换成文本格式。也就 文特有的字母或字母组合,则可以判定该文为维文文件;同
是说可以使用Lucene来索引、搜索存放在文件中的一切能够 样方法也可以判断出哈文文件。如果两种语言的特殊字母或
从中提取文本信息的数据格式 。 字母组合均有 出现 ,则可以判断为维哈文的混排文件 。口
当完成对数据的预处理后,便可以构建包含若f个域 另外,还可以通过维、哈文的特殊组词规则进行语种的
(Field)的相关文档(Oocument)对象。 判定。例如通过前缀符及前缀符与字母组合区分维哈文等。
语种识别 目前在新疆已经入库的维吾尔文文献中,有一部分是利
语种识别工作即标识出文件内容的语种,并确定文件是 用原先的维吾尔文新文字表示的文献。维吾尔文新文字是 由
单一语种文件还是多语种的混排文件。 英文字母或英文字母的组合来代替原来的老维文字母。对新
语种识别工作首先通过对文件字符的Unicode编码的判断 文字就不能简单地用Unicode编码来判定文种,可以利用新文
来确定: 字的几个特殊字母组合来判定文种。为此需先建立新维文字
,/中文匹配正则表达式 母表,在语种分析时,将其从数据库中取出进行匹配,重点
publicstaticStringchMatcher:”([\u4e00一\u9fa5])”: 匹配新维文的特殊字母组合以及特殊的字母组词方式,尤其
,/英文匹配正则表达式 是英文中不会出现的字母组合,如果能匹配则可以判断出该
publicstaticStringenMatche”:([\u0041-\u005a\u0061一 文件为新维文。同时根据英文特有的而新文字中不会出现的
\u007a])’; //阿拉伯文匹配正则表达式 字母组合,来判断英文文件。如果两个语种的特殊组合都有
publicstaticStringarMatcher:”([\u05F3一\u06fq)’; 出现,则可以判断出该文件为英文和新文字的混排文件。
//俄文匹配正则表达式 语种识别工作为后面的分析及索引工作提供条件,根据
publicstaticStringruMatcher:”([\u0410一\u0451】)’; 语种的不同选取不同的分析方式进行分析,并创建索引。
,/维吾尔文名义形式字母匹配正则表达式 1.2.2分析并创建索引
publicstaticStringweiMatcher=”([\u0626一\u0628\u062a\u0— 在对数据进行索引处理时,Lucene会首先分析数据使之
62c\u062e\u0631-\u0634\u063a\u0641一\u0646\u0648 0649\u064a\ 更加适合被索引。
u0 lf\uO6ad\u067e\u06be\u0686\u0698\u06c6-u\O6c8\uO6cb\uO6dO\ 分析(Analysis),在 Lucene当中指的是将域(Field)文本转
uO6d5])’’: 换为最基本的索引表示单元一项(Term)的过程。根据语种分析
同时,需要对维吾尔文变形显现形式的代码进行匹配 。 的结果,对于单一语种的文件和多语种的混排文件要采用不
∥哈萨克文名义形式字母匹配正则表达式 同的处理方式。
publicstaticStringhaMatcher=”([~0627一\u0628\u0621\ (1)对于单一语种的文件创建索引
uO62a\uO62c\uO62flu063l一\uO634\uO639\u0641\u0643一\u0646\ 对于上述语种除了汉语外,均是以字母来组成单词形式
u0648一\u0649\u064a\u06af~u0
您可能关注的文档
最近下载
- 六年级语文上册生字表识字表《写字表》字帖人教版同步字帖描红2.pdf VIP
- 第8课 用制度体系保证人民当家作主 教案 -2023-2024学年中职高教版(2023)中国特色社会主义.docx VIP
- 高二数学(含创意快闪特效)-【开学第一课】2023年高中秋季开学指南之爱上数学课.pptx VIP
- 第8课 用制度体系保证人民当家作主中职专用【2023年秋最新版】.pptx VIP
- 2025年秋新北师大版数学2年级上册全册同步教学设计.pdf
- 某热电厂1×300MW供热机组工程安全预评价报告.doc VIP
- 四年级语文上册《写字表》字帖.pdf VIP
- 地埋管计算方法.doc VIP
- 太极拳理论教学课件.pptx VIP
- 八年级上册语文学习笔记.pptx VIP
文档评论(0)