网络环境叙词表收词新来源刍议.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络环境叙词表收词新来源刍议

网络环境叙词表收词新来源刍议[摘要]叙词表的编制或维护,离不开收词这一基础性工作。随着计算机技术和网络的发展,叙词表正在由手工编制模式向网络环境机编模式转换,因此收词方式也必须改革和创新。为此,讨论几种面向网络词源的收词方法,包括网络数据库中的关键词、联网检字法词库、网站热点词、网络检索界面相关词显示、大众网站标注词和网络百科资源。对这6种收词方法的具体操作和性能进行介绍和分析,并逐一给出实例 [关键词]叙词表 词汇收集 网络检索 标注 网络热点词 [分类号]G254.24 1.前言 随着信息技术的快速发展,网络信息资源急剧增长,网络词汇日新月异,丰富多样。除了传统词汇外,在网络上已经形成了由缩略语、汉语新词汇、数字代语与网络形语4部分组成的网络语言体系。目前基于关键词的网络信息组织和信息检索,由于计算机无法识别检索词的语意信息,在信息的查全和查准方面存在严重不足,传统叙词表的词汇已经不能完全满足现代用户的检索要求。因此,传统词表的收词方式向网络环境收词方式的转变势在必行 无论是叙词表的编制还是维护,都离不开收词这一基础性工作。叙词表收词的基本原则是文献保障原则和用户保障原则。网络环境叙词表的主要“文献”是网络信息资源,用户主要是网民。因此,编制主要面向网络用户和网络资源的叙词表就必须适合广大网民的查找习惯和思路,词汇就必须来自网络、用于网络。不对收词方法进行改革,不面向网络资源和网络用户,编出来的叙词表就很难具有适应性和实用性。现阶段的叙词表收词也应该以机器作业为主,人工方法为辅,在继承原有词汇的基础上,借助计算机技术和网络技术,全面、快捷、低成本地收集更多的词汇,以满足叙词表编制和更新的需求 自XX年代以来,传统叙词表一直采用手工方式收词,主要来源有:传统叙词表和分类法资源、各类工具书、业术语和业词典、名词委审定词汇以及检索刊物的主题索引或关键词索引等。这些方法都是手工环境编制叙词表的智慧结晶,在当时是行之有效的。现在网络环境中叙词表编制和修订时,这些收词方法大多可以配合计算机操作(诸如词频统计等)继续使用。但是,在网络和计算机技术迅速发展的今天,这种手工收词方式已经很难适应网络环境中叙词表的研制和利用,探索新的收词方法已经成为一项亟待进行的课题 2.面向网络的收词方法 在网络信息环境下,拥有海量的语料和丰富的词汇来源,诸如网络数据库中的关键词和网络百科资源,基于用户参与的folksonomy(大众分类网站)的标注词(tagging),还有像谷歌、百度这类搜索引擎为方便用户检索提供的扩展词,另外就是近年互联网上出现的热点词汇以及伴随输入法出现的联网检字法词库等 在已知网络词汇来源的基础上,利用技术人员编制的软件,可以有针对性地展开词汇收集工作,以用于叙词表的编制和修订。其基本流程如图1所示: 2.1网络数据库中的关键词 网络词汇的第一来源就是使用万方、维普、CNKl等网络文献数据库,获取期刊论文和学位论文的关键词资源。近年来不少叙词表或叙词词库就是利用网络数据库中的关键词来扩充词库。网络数据库中的关键词,是由业人员或作者标引,能够表达文献主题概念的主题词或叙词,其标引质量比较高。收词做法是用编制好的下载软件提取全部关键词,经过去重,同时考虑通用词和业词词频等信息,对词汇进行机器和人工选择,获取相应的词条,纳入语料库。另外还可以对论文和参考文献题目做切词处理,抽取得到一部分词汇 网络数据库论文关键词的优点是比较成熟和定型,词汇准确性高,但其内容更新速度慢,难以涵盖新生的词汇,网络上的新词、热词难得到及时的反映,不过这与在后面述及的网站热点词收词法,倒是可以互补 2.2联网检字法词库 一款输入法的强弱主要由其自带词库的强弱来决定,它是用户打字的词汇基础。这一点上,搜狗输入法融合了搜索引擎技术,使网络新词等可以即时在线更新至固有词库,从而实现了词库的无限扩充。这也就是后来业界所定义的“网络化输入法”。而后,谷歌输入法、QQ拼音等纷纷效仿,于是类似谷歌输入法词库、QQ分类法词库、火星输入法词库、百度手机输入法词库等众多联网检字法词库相继出现 其中,“细胞词库”就是搜狗首创的、开放共享、可在线升级的细分化词库的功能名称,其意义是满足用户的个性化输入需求。在搜狗词库里,凡是新出现的名词术语、人名、机构名、文献名、事件名、影视作品名、文献名等,一旦成为人们常用的词汇,搜狗就会收入细胞词库,其收词范围如表1所示: 搜狗细胞词库具有如下几个特点:①新;②有较高的使用频率;③分布广;④词汇主要来自网络以及和网民的义务提供。这几个特点正符合编制修订叙词表收词的要求,因此这些细胞词库成为叙词表候选词的重要来源。当然,其不足之处也显而易见,主要表现在:由于建库的

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档