信息检索系统中藏文自动提示的研究与实现.docVIP

信息检索系统中藏文自动提示的研究与实现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索系统中藏文自动提示的研究与实现.doc

信息检索系统中藏文自动提示的研究与实现   信息检索系统中藏文自动提示的研究与实现   武强,边巴旺堆   (西藏大学 工学院,西藏 拉萨 850000)   摘要:在当今信息社会,信息检索已经成为人们日常工作的一部分。藏文作为一种古老的文字,也融入了当今的信息时代,越来越多的网页、电子邮件等电子文档以藏文形式出现。该文主要探讨了藏文的构成、编码、分词及藏文相关提示词的实现原理及方法,对具有重要影响的藏文分词和排序进行了深入的分析,实现了在信息检索系统中基于权重的藏文自动提示功能。通过测试分析,该功能能较好地分辨藏文和依据权重对藏文进行相关词提示。   关键词:藏文;分词;信息检索;相关词提示;编码;网页   中图分类号:H214 文献标识码:A 文章编号:1009-3044(2014)19-4378-03   Research and Implement of Tibetan Term Suggestion in Information Retrieval System   WU Qiang, BianBa Wangdui   (College of Engineering, Tibet University, Lhasa 850000, China)   Abstract: Information retrieval has become a part of people work in today’s information society. As one ancient language, Tibetan has blended in with today’s information age. There are more and more web pages, e-mails etc. in the form of Tibetan. The paper mainly discusses the structure, encoding, term segmentation of Tibetan and implementation mechanism and method of Tibetan term suggestion, and analyses deeply the Tibetan word segmentation and Tibetan sort, finally implements the function of Tibetan term suggestion based on the value of a Tibetan word in documents. From testing, the function can distinguish Tibetan word and get the Tibetan term suggestion based on value properly.   Key words: Tibetan; word segmentation; term suggestion; information retrieval; encoding; Web page   1 概述   目前,随着互联网和个人电脑的发展,信息量每天都以指数级增长,信息检索[1]成了一种人们获取日常信息的主要手段。藏文,作为一种古老的书写文字,其历史可以追溯到1400多年前。迄今为止,以藏文记载的古典著作浩如烟海,这些书籍在藏民族的传承和发展上发挥着重要的作用。随着信息时代的到来,以藏文形式记载的各种网页、文档也越来越多,利用检索系统对藏文进行检索,可以更快地获取信息,同时也促进了藏文的发展。   相关词的自动提示功能(Term Suggestion)在一些常用的网站上可以看到,比如搜索网站谷歌,百度,电子商务网站淘宝,易趣等。相关词的自动提示功能优化了搜索结果,通过系统来猜测检索人需要的搜索词语,为检索人在信息检索时提供了更多的便利和较准确的检索结果。图1显示了百度搜索引擎上相关词的提示功能。从该图我们可以看到,相关词的提示功能即提高了检索书写速度,又延长了检索词的长度,为进一步返回更准确的结果提供条件。      图1 百度上汉语自动提示功能   2 藏文的构成、编码及分词   2.1藏文的构成   藏文字是一种拼音文字,可以被看做由基本字符且基本字符通过纵向叠加和横向连接而成[2][3]。藏文字主要由现代藏文和一些梵音转写体和反写体组成。现代藏文是由三十个辅音字母和四个元音字母组成,它是藏文字的主要组成部分。加上梵音的转写体和反转体,藏文共有四十一个辅音字母和十三个元音字母。图2给出了一个藏文字的各组成构件,藏文字看起来虽然复杂,但每一个藏文字并不是随意

您可能关注的文档

文档评论(0)

fa159yd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档