- 116
- 0
- 约9.32千字
- 约 9页
- 2017-09-14 发布于安徽
- 举报
基于优化维汉双语词典的多语言信息检索系统
倪耀群1,2,3,许洪波1,谭婧霞3,唐慧丰3,程学旗1,孟丹1
中国科学院计算技术研究所,北京,100190
E-mail: niyaoqun@
摘 要:为方便维吾尔文与汉文使用者的信息交流和双语教学,作者使用经过优化的双语词典构建了维、汉多语言信息检索系统,该系统分为索引生成、多语言检索和摘要三个组成部分。首先采集网络上包含这两种文字的网页,将网页正文统一转换为UTF-8编码存储,然后按照汉维文词典合并后的UTF-8词表分词,使用中科院计算计算研究所I3Search(UTF-8版)建立索引。多语言检索通过翻译查询语句实现,支持多语言混合检索(如?????? 网站)和单一语言检索(如维吾尔文 网站)两种方式。多语言混合检索结果比较精确但是对使用者的语言要求很高;而根据双语词典,允许用户输入单一语言检索相对容易,但是词典中多义词和同义词现象导致检索结果精确率不高。多语言的摘要通过在正文中以字符为单位滑动寻找查询关键词出现最密集的窗口,加标签并截断尾部残缺字符后显示,取得了较为满意的效果。
关键词:老维文;多语言信息检索;双语词典
A Multilingual Information Retrieval System Based on Optimized Uyghur-Chinese Bilingual Dictionary
Yaoqu
您可能关注的文档
- “TDL-PBL-SSL” 综合教学法在制药专业中试实践教学中的应用.doc
- “六步三环” 模式在初中英语课堂教学中的应用探析.doc
- 5S 管理在中职电子专业实践教学中的应用.doc
- GNSS 时差及其在多系统组合定位中的应用.doc
- Matlab 在《 自动控制原理》 教学中的应用研究.doc
- PBL 教学法在病理生理学中的改良应用—以应用为目的的因材施教.doc
- 鼻咽癌患者血浆EBV DNA、血清CYFRA21-1 和VCA-IgA 的检测及临床应用.doc
- 表面改性碳纳米管粉体在微生物燃料电池中的应用[J].doc
- 超深层曝气槽使用喷射式曝气系统的应用.doc
- 成果四 中国产业结构变迁对经济增长和波动的影响.doc
原创力文档

文档评论(0)