- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机领域术语自动获取和层次构建
计算机领域术语自动获取和层次构建
摘 要: 以计算机领域术语的获取方式为研究对象,根据文献资料法、实验法、讨论法,通过对计算机领域术语获取方法进行理论、实践的探究和验证,得出计算机领域术语自动获取的方法和术语的层次构建。
关键词: 术语;计算机术语;自动获取;层次构建
中图分类号:TP391 文献标识码:A 文章编号:1671-7597(2011)1020029-02
1 概述
继第三次科技革命以来,科学技术得到了飞速的发展,信息化时代随之降临。而计算技术的诞生与使用作为第三次科技革命的标志,为人们的生活和生产带来了极大的便利。现如今随着计算机在全世界范围内的普遍使用,每天都有大量的数据以电子的形式进行使用和交流,而且伴随着大量科技文献的出现,使得不同领域的新词汇以日新月异的速度得到发展和壮大。计算机领域的术语量也得到了大幅度的提升。但是根据调查研究发现,现在的计算机领域的术语主要是通过人工来进行构建,不仅代价巨大,而且进程非常的缓慢,所以研究出一种自动化的计算机领域术语获取方法,并及时地发现领域术语的任务,是目前计算技术迅速发展和普遍使用的迫切要求。
1.1 术语的概念
术语具有很强的领域特征,是与某一领域紧密结合的固定的或半固定的词汇或短语。术语是在特定领域出现的,表达的是概念性的称谓,术语可以是短语,也可以是一个词。研究发现,术语和普通语言一样,是作为一种交流语言形式存在,可以为人们之间的交流提供必要的基础。但是术语不同于普通语言的是,它存在于某一特定的领域,是某一领域的各种概念的称谓,是这一特定领域人员用来进行交流和运用的,一般不会在其它领域中使用。例如,有关医学的术语,除非是和医学想关的行业,一般在人们的生活中很少会出现,很多时候人们连知都不会知道某一医学术语所代表的含意,这也就使得大多数人看不懂一些药品上的药品成分说明。术语体现和负载了一个学科领域的核心知识,对某一领域的术语研究,有利于把握一个学科的发展现状和未来的发展趋势。所以对计算机领域术语的获取具有时代性的意义,是社会经济发展的必然要求。
1.2 获取术语的方式
获取和建立可行性大的术语库,是术语学与术语规范化和标准化的基础,也为信息的提取、文档的分类提供必要的依据。实践证明,为术语创建一定的获取技术是整个社会和各个行业发展的必然要求,也是促进特定领域交流更加顺畅,发展更加稳定的基础。所以获取术语的技术也需要更加的有效才行,而现下主要的术语获取方法有3种:
1)字典法。就是通过领域专家编定好的字典来进行相对应的匹配,以达到获取的目的。但是这种的技术方法有一定的局限性,主要是字典更新速度慢,跟不上领域发展步伐,必定无法适时的提供有效的专业领域术语。但这可以作为领域入门者的入门法宝,为其后期领域知识的学习垫定一定的基础;
2)规则法。规则法主要是依据语言学原理和知识指定一系列共性规则和个性化规则,从而有效地处理自动分析中遇到的各种语言现象。但是这一单一的、固定性强的方法,无法充分解决丰富多样的语言所带来的各种术语分析;
3)统计法。统计法主要是为弥补上面两种方法所带来的不足而产生的术语获取方法,也是自然语言研究领域所提出的基于语料库某些词所出现频率的多少而加以统计的技术方法。这种获取术语的技术主要是通过词语的出现频率来对词语是否具备术语的资格加以确定,因为在特定的领域,这一领域的术语自然会使用得更加的频繁,使用面也会更加的广,那么根据这一现象,就可以用统计法提取出一定数量的词汇和短语,自然这些词汇和短语也就是该领域的术语。现下专业术语的获取主要采取就是这种方法,在必要的时候会结合以上两种方法同时使用。
2 计算机领域术语获取的必要性
自第三次科技革命计算机诞生以来,随着各国经济的飞速发展,科学技术水平的不断提高,计算机技术水平也得到了快速提升,那么在这样的一个大的社会环境下,加强计算机领域术语的获取也是顺势而为,顺信息时代发展之势,顺经济社会各行各业发展之要求。要知道,一个领域的术语有体现一个领域知识发展的作用,故对计算机领域术语的获取,有利于对该领域的发展现状和未来的发展趋势做有效的把握,也是促进计算机行业快速发展基础。计算机领域术语的获取来源有很多,例如科技论文、词典、互联网等等,而在这些术语来源中,互联网是计算机领域术语来源最多的,也是术语更新速度最快,内容最为全面的。所以在对计算机领域术语获取过程中,我们必须充分发挥互联网的作用,为术语的获取提供更多的帮助和获取基础。
3 计算机领域术语的自动获取
计算机领域术语的自动获取,是基于术语手动获取上的代价过大,更新速度慢而产生的有效术语获取手段。现如今随着计算机技术水平的大幅提升,其在社会各行各业中所发挥
文档评论(0)