基于优化维汉双语词典的多语言信息检索系统.docVIP

  • 116
  • 0
  • 约9.32千字
  • 约 9页
  • 2017-09-14 发布于安徽
  • 举报

基于优化维汉双语词典的多语言信息检索系统.doc

基于优化维汉双语词典的多语言信息检索系统 倪耀群1,2,3,许洪波1,谭婧霞3,唐慧丰3,程学旗1,孟丹1 中国科学院计算技术研究所,北京,100190 E-mail: niyaoqun@ 摘 要:为方便维吾尔文与汉文使用者的信息交流和双语教学,作者使用经过优化的双语词典构建了维、汉多语言信息检索系统,该系统分为索引生成、多语言检索和摘要三个组成部分。首先采集网络上包含这两种文字的网页,将网页正文统一转换为UTF-8编码存储,然后按照汉维文词典合并后的UTF-8词表分词,使用中科院计算计算研究所I3Search(UTF-8版)建立索引。多语言检索通过翻译查询语句实现,支持多语言混合检索(如?????? 网站)和单一语言检索(如维吾尔文 网站)两种方式。多语言混合检索结果比较精确但是对使用者的语言要求很高;而根据双语词典,允许用户输入单一语言检索相对容易,但是词典中多义词和同义词现象导致检索结果精确率不高。多语言的摘要通过在正文中以字符为单位滑动寻找查询关键词出现最密集的窗口,加标签并截断尾部残缺字符后显示,取得了较为满意的效果。 关键词:老维文;多语言信息检索;双语词典 A Multilingual Information Retrieval System Based on Optimized Uyghur-Chinese Bilingual Dictionary Yaoqu

文档评论(0)

1亿VIP精品文档

相关文档