- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于DCC术语定义标注语料库研究
基于DCC术语定义标注语料库研究
摘要:本文介绍了一个基于动态流通语料库(DCC)的术语释义信息标注语料库和针对语料库建设所开发的辅助软件系统。语料库建设过程分为如下几个步骤:原始语料收集、标记集确定;语料标注和辅助软件开发等几部分。在标注语料库中标出的内容有术语和它的定义或解释性语句。本文还对标注结果进行了介绍。本研究所产生的语料资源可作为术语取和定义识别的训练语料和测试语料,也可作为专业领域知识本体构建的结构化知识来源。
关键词:定义识别;定义标注;语料库建设;新术语;DCC
1、引言
本文是专业领域术语提取与定义识别研究的一部分。在对语料进行处理,获取其中的新术语之后,需要对新术语的定义进行识别。现有的术语定义识别方法中,大多比较重视定义模板和算法的设计,强调定义内部特征词语的选择和加权,而往往忽略了被定义项和定义项(即新术语和释义文字)之间在外在形式上的关联。本文通过考察一定数量的原始语料发现,由于很多术语是由两个以上的词构成的短语。它们的构成成分常常在定义中分散出现,这种出现对确定定义的范围有一定的标志作用。如:
Symbian操作系统
Symbian是针对移动电话的操作系统。它提供了高水准的通信与个人信息管理(PIM)相结合的功能。Symdian通过整合邮箱和Java与PIM功能集成,将中间件与无线通信结合起来。Symbian操作系统对独立软件商、企业IT部门、网络运营商以及Symbian许可持有者等第三方是开放的。
通过术语构成成分在句中的分布情况,可以大致确定作为该术语定义的核心句(上例中带下划线的部分)。
2、系统设计
通过对语料的观察得知,专业领域的媒体中对术语的解释常常采用随文释义的方式,并不常用特别简短而严格的“科学式”定义(即“属概念+种差”的方式)。这时如果在后续的段落中有被释术语的高频出现,则可以为该术语的“百科全书式”定义提供较充分的资料。以下面这段介绍“VoIP电话机”的文字为例,在定义核心句的后面。“VoIP电话机”集中出现,可以将这些文字都作为“VoIP电话机”的“百科全书式”定义素材:
VoIP电话机是专门设计用于VoIP系统的电话机,它将标准的电话话音转换成能在互联网上传输的数字格式,以及将通过互联网输入的数字电话信号转换成标准的电话话音。
虽然与互联网的连接仍然需要,但VoIP电话机可让用户在无需使用个人计算机的情况下利用VoIP技术。物理上,VoIP电话机很像传统的硬连线电话机或无绳电话机。
有的VoIP电话机还提供质量增强的话音,达到CD的水准。有些VoIP电话机还允许在通话过程中传输和接收图像数据,因而这些电话可以当作视频电话。
基于上述考察,我们设计了如下系统:
本系统选用IT类期刊语料作为领域文本,使用xml格式对识别出的IT领域术语及其定义进行标注。其基本流程如下:
(1)使用“接续指数+TFIDF+领域相减”的方法在领域文本中进行新术语提取;
(2)使用模板匹配和局部高频出现的特征对识别出的新术语进行初步定义识别;
(3)利用处理过程中保留的原始信息,将提取和识别结果标注到原始语料中;
(4)对标注结果进行校对,校对内容包括定义范围的准确性以及术语和定义关联的准确性;
(5)根据已有知识框架(拥《计算机百科全书》)和定义中包含的词语关系构建基于当前语料库的术语和定义知识库。
(6)随着语料库的不断更新,逐步扩大和丰富知识库。
3、语料库建设
本系统语料来源是始建于2002年的信息技术领域动态流通语料库,其语料来源主要选择了科普性质的信息技术类报刊《计算机世界》、《网络世界》、《IT经理世界》、《微电脑世界》、《大众软件》等,起止时间是2003-2006年。语料库规模为5千万字(纯文本)或2.1G(网页格式,含图片、声音、动画、视频等多媒体文件),具体如下:
4、语料库标注
4.1 基本信息
我们在语料库全部语料中选取《计算机世界》2003-2006每年第1-10期共计21.5M纯文本语料(约1000万字)进行了标注,将其中包含释义信息的术语条目标注出来,得到496个文本,3.12M字节,约合150万个双字节字符,共包含术语释义信息978条。
4.2 标记集
在标注过程中确定了术语和释义信息等的标记符号。如下:
(1)术语:
(2)释义信息:
(3)字母词语:
上述标记按照xml语法规范制定,便于后续的内容抽取等工作。术语和释义信息的标记
文档评论(0)