面向跨语言知识组织的词典信息编纂与发布.docVIP

面向跨语言知识组织的词典信息编纂与发布.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向跨语言知识组织的词典信息编纂与发布.doc

面向跨语言知识组织的词典信息编纂与发布 通过统计双语词典中的编纂、出版与内 容构成,本文全面分析了针对跨语言,即汉英两种语 种的词典编纂流程、界面、词典数据库、词典各种呈 现界面,即纸质的、网络的和手机的。通过本文提出 的整个框架,在全媒体、多数据类型呈现的大数据时 代,可以在一定程度上解决跨语言词典编纂的相应问 题。 关键词:全媒体;跨语言;词典界面;信息服务 H319.9 A : 1001-828X (2015) 005-000-02 一、引言 在出版业由传统向现代转型的今天,数字技术、 网络技术越来越广泛地被应用于出版业[1],人们逐步 迈进数字化出版的时代。数字时代的出版是以“现代 科技为依托的全方位出版时代,是传统出版与各种新 型媒介整合出版的时代” [2]。在目前的数字出版大潮 下,虽然以纸质媒体为代表的传统图书出版仍然在出 版业中占据主导地位,“但是以互联网、手机、手持阅 读器等移动媒体为依托的面向全媒体的出版模式己呈 现良好的发展势头。” [3],全媒体是指“综合运用各 种表现形式,如文、图、声、光、电,来全方位、立 体地展示传播内容,同时通过文字、声像、网络、通 信等传播手段来传输的一种新的传播形态。” [4]从本 质上来说,全媒体就是“要以不同的形式、通过不同 的渠道、不同的平台,使想传达的资讯能够更有效地 到传递到受众面前。” [5]。而在全媒体技术基础上的 全媒体出版则是“同一种内容通过多种媒体同步出版。 包括纸质媒体,也包括互联网、手机、阅读器” [6]。 全媒体出版具有出版时间的同步性、出版渠道的多样 性和读者覆盖的多样性等特点 、双语词典的全媒体发展状况 据中国互联网信息中心2009年7月发布的第24 次《中国互联网络发展状况统计报告》显示:“截至 2009年6月30日,中国网民规模达到3.38亿人,普 及率达到25.5%。而且手机网民规模也达到1.55亿人, 占整体网民的45.9%” R]。这么巨大的市场需求,势 必刺激并引导着数字技术创造新的数字出版运用颂域 网络出版、手机出版等全媒体出版定会得到日新月异 的发展。在双语词典的全媒体出版方面,国内一些大 型的IT公司也做了一些有益的尝试,并取得了相对有 效的成果。从技术的角度上看,国内做的比较好的在 线双语辞书见表1; 、面向全媒体的双语词典编纂 面向全媒体的双语词典编纂由语料库、词典编纂 界面和词典数据库三个主要内容组成。这三个功能模 块是相互联系和紧密结合在一起的,词典编纂界面是 核心,是语料库和词典数据库服务的对象;语料库检 索界面是基础,脱离语料库和检索界面,词典编纂过 程中的例证获取、词频统计和词汇提取等语言学知识 获取的功能就无从谈起;词典数据库是最终成果的载 体,脱离词典数据库,不但后续开发是空中楼阁,就 连词典编纂成果也成为镜中花和水中月了。词典编纂 系统是一个多用户协作的软件系统,为了协调用户间 操作及提供相关的功能服务,软件采用C/S (客户/服 务器)结构进行组建。在构建过程中,将不同的功能 模块分别安排在客户端和服务器端,并利用MVC (模 块、视图、控制器)设计方式将其联系起来。 词典编纂界面 从词典数据库中根据权限分配给词典编纂者、初 审、二审和主编相应的词条。这些词条有下列四种: 仅仅有词目;初审词条;二审词条;三审词条;词典 各级别的编纂者有权对词条进行修改、增加和删除; 这一部分显示在词典编纂界面的左边,为了便于词典 编纂者在类似word界面里编纂,在选定好某个词条 后,可以隐藏。 自动显示在类似word的编纂界面中,不同的词 典编纂者可以像在word中一样,任意的对这个词条 进行编纂、修改、删除和添加其他语言信息。为了便 于后续的词条数据抽取,可以做一个严格意义上的词 条模板,这个模板包含最全面的词条组成元素,基本 模板主要包括:词目、音标、罗马字符、词性、【阿拉 伯数字、释义例证】(黑框里面的部分是一个多个循环, 这个循环值给它一个接近最大值即可);也可以不做固 定模板,词典编纂者按照词条的基本框架进行编纂, 然后把这个词条自动保存到词典数据库中。 语料库及检索功能 首先,常规的语料库统计功能:词频统计、词性 统计、句子长度统计;其次,例句检索,主要有下面 的检索,关键词检索、关键词和词性结合检索、例句 长度检索、搭配检索、形态变换检索。最后,自然语 言统计知识获取功能,计算词的搭配度、互信息、Z 值、卡方值等。检索功能模块的放置,作为一个模块, 放到类似word编纂界面的工具栏里面去,展开分三 部分:常规统计功能;例句检索功能;自然语言统计 功能。检索结果界面可以自由的控制大小。对于数据 库的查询,一定程度上可以依赖于数据库管理系统自 身的查询功能,但数据库所提供的查询是原始的,基 于SQL (关系

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档