- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索系统中藏文自动提示的研究与实现.doc
信息检索系统中藏文自动提示的研究与实现
信息检索系统中藏文自动提示的研究与实现
武强,边巴旺堆
(西藏大学 工学院,西藏 拉萨 850000)
摘要:在当今信息社会,信息检索已经成为人们日常工作的一部分。藏文作为一种古老的文字,也融入了当今的信息时代,越来越多的网页、电子邮件等电子文档以藏文形式出现。该文主要探讨了藏文的构成、编码、分词及藏文相关提示词的实现原理及方法,对具有重要影响的藏文分词和排序进行了深入的分析,实现了在信息检索系统中基于权重的藏文自动提示功能。通过测试分析,该功能能较好地分辨藏文和依据权重对藏文进行相关词提示。
关键词:藏文;分词;信息检索;相关词提示;编码;网页
中图分类号:H214 文献标识码:A 文章编号:1009-3044(2014)19-4378-03
Research and Implement of Tibetan Term Suggestion in Information Retrieval System
WU Qiang, BianBa Wangdui
(College of Engineering, Tibet University, Lhasa 850000, China)
Abstract: Information retrieval has become a part of people work in today’s information society. As one ancient language, Tibetan has blended in with today’s information age. There are more and more web pages, e-mails etc. in the form of Tibetan. The paper mainly discusses the structure, encoding, term segmentation of Tibetan and implementation mechanism and method of Tibetan term suggestion, and analyses deeply the Tibetan word segmentation and Tibetan sort, finally implements the function of Tibetan term suggestion based on the value of a Tibetan word in documents. From testing, the function can distinguish Tibetan word and get the Tibetan term suggestion based on value properly.
Key words: Tibetan; word segmentation; term suggestion; information retrieval; encoding; Web page
1 概述
目前,随着互联网和个人电脑的发展,信息量每天都以指数级增长,信息检索[1]成了一种人们获取日常信息的主要手段。藏文,作为一种古老的书写文字,其历史可以追溯到1400多年前。迄今为止,以藏文记载的古典著作浩如烟海,这些书籍在藏民族的传承和发展上发挥着重要的作用。随着信息时代的到来,以藏文形式记载的各种网页、文档也越来越多,利用检索系统对藏文进行检索,可以更快地获取信息,同时也促进了藏文的发展。
相关词的自动提示功能(Term Suggestion)在一些常用的网站上可以看到,比如搜索网站谷歌,百度,电子商务网站淘宝,易趣等。相关词的自动提示功能优化了搜索结果,通过系统来猜测检索人需要的搜索词语,为检索人在信息检索时提供了更多的便利和较准确的检索结果。图1显示了百度搜索引擎上相关词的提示功能。从该图我们可以看到,相关词的提示功能即提高了检索书写速度,又延长了检索词的长度,为进一步返回更准确的结果提供条件。
图1 百度上汉语自动提示功能
2 藏文的构成、编码及分词
2.1藏文的构成
藏文字是一种拼音文字,可以被看做由基本字符且基本字符通过纵向叠加和横向连接而成[2][3]。藏文字主要由现代藏文和一些梵音转写体和反写体组成。现代藏文是由三十个辅音字母和四个元音字母组成,它是藏文字的主要组成部分。加上梵音的转写体和反转体,藏文共有四十一个辅音字母和十三个元音字母。图2给出了一个藏文字的各组成构件,藏文字看起来虽然复杂,但每一个藏文字并不是随意
您可能关注的文档
- 企业网网络管理的发展趋势.doc
- 企业自动办公网络模型设计的方法.doc
- 企业自动化仪表的管理与维护措施.doc
- 企业财务与市场营销的关系分析.doc
- 企业财务管理问题与对策研究.doc
- 企业道德激励的内容探析.doc
- 企业避免人才流失的措施.doc
- 企业领导力开发模式研究.doc
- 企地关系管理中存在的问题及对策.doc
- 伊敏换流站换流变阀侧套管故障分析及处理.doc
- 第二单元 第4课时 3的乘法口诀(教学设计)数学西师大版二年级上册(新教材).docx
- 创伤休克急救及护理相关知识试卷题目及答案.doc
- 第二单元 第4课时 减法的初步认识(教学设计)数学西师大版一年级上册(新教材).docx
- 第二单元 第5课时 4、5的乘法口诀(教学设计)数学西师大版二年级上册(新教材).docx
- 1.2.4二面角(2知识点+3题型+巩固训练)(原卷版)-2025《高中数学同步课堂学与练》高二(人教B版选修第一册).pdf
- 第二单元 第5课时 减法的计算方法(教学设计)数学西师大版一年级上册(新教材).docx
- 【2025秋新版】九年级英语上册 _ 期末押题作文常考热门主题【健康生活类】范文6篇.pdf
- 【2025秋新版】九年级英语上册:阅读理解期末复习专练.pdf
- 1.2.1&1.2.2 命题与量词、全称量词命题与存在量词命题的否定(4知识点+6题型+巩固训练)(原卷版)-2025《高中数学同步课堂学与练》高一(人教B版必修第一册).pdf
- 2024年《中级社会工作者实务》重点知识考前狂背.pdf
文档评论(0)