情报检索中汉语语词自动切分的研究.pdfVIP

情报检索中汉语语词自动切分的研究.pdf

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2001 ·2              图书与情报 ·57 · ·文献语言 · 情报检索中汉语语词自动切分研究 ( ) 文庭孝 湘潭大学管理学院图书馆学系  湖南湘潭  411105 〔摘  要〕 笔者由五笔字型得到启示 ,通过对汉语语词和情报检索系统特点的分析 ,找到了 一条解决汉语语词切分问题的路径 , 即词库划分和联想匹配方法 。基于此 ,笔者建议对《汉语主 题词表》根据相关原理进行修改 , 以解决汉语语词切分中的诸问题 。 〔关键词〕 情报检索  语词切分  汉语主题词表 〔中图分类号〕 G 250      〔文献标识码〕 A ( ) 〔文章编号〕 1003 - 6938 2001 02 - 0057 - 02   利用计算机 自动进行汉语语词切分是计算机 间 ,基本词汇与一般词汇之间都可以相互组合搭配 情报检索中的一大难题 ,许多专家和学者穷其心智 形成新的词语 ,而且都能准确表达概念 。 进行了毕生的研究 ,但仍没有找到一个令人满意的 汉语是一种象形会意语言 ,字与字之间、词与 答案 。多年来笔者有心从事汉语语词切分的思考 词之间的组合丰富多采 ,机动灵活 。而且字与字之 和研究 ,有幸从王码五笔字型得到一丝启发 ,找到 间、词与词之间不象其它语言那样 ,在谴词造句时 了一条通往计算机 自动切分汉语语词的途径 ,在此 有空格或符号隔开 ,加上汉语的词汇又存在着一词 道出以求各位同仁之教与各位同仁共享 。 多义 、多词一义等现象 。汉语的这些特点 ,给汉语 1  从王码五笔字型得到的启示 语词切分和词频统计带来许多许多困难 。汉语语 向计算机输入汉字的方法有上千种 ,而王永民 词言简意赅 ,结构复杂多样 ,似乎成为汉语语词切 先生研究发明的五笔字型输入法是汉字输入法中 分的“瓶颈”,令人望而止步 。 最常用的一种 。五笔字型最大的优点就在于其掌 是不是汉语语词具有以上特点 ,我们对汉语语 握并充分利用了汉字结构的特点 ,在汉字的输入过 词切分就无计可施了呢 ? 事实并非如此 。 ( 程中又根据汉字的出现频率采用了简码输入法和 我们不妨作一个假设 这个假设是容易实现 ) 联想输入法 ,既符合汉字的特点又照顾了中国人的 的 :假设存在这样一个汉语语词词库 ,它包括汉语 汉字输入习惯 。正因为如此 ,五笔字型具有强大的 语词中存在并且经常为人们所使用的大量词汇 ,而 ( 生命力 ,得到了普遍推广和使用 。 且这些词汇有序排列 这里所说的有序排列 ,是指 ) 启示 :长期以来 ,在情报学中困扰我们的一大 按照词的出现频率进行排列 。即包括我们 日常生 难题就是利用计算机 自动进行汉语语词切分并进 活中经常使用的词汇和各学科专业领域经常使用 行词频统计 , 以实现计算机对文献的自由标引和快 的词汇 。而通常我们把词汇分为基本词汇和一

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档