计算机领域术语的自动获取与层次构建.pdfVIP

计算机领域术语的自动获取与层次构建.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机领域术语的自动获取与层次构建.pdf

第 37 卷第 2 期 Vol.37 No.2 计算机工程 Computer Engineering 月 川 lloo -Jqb 呻 盯 mm ·人工智能及识别技水· 中阳分费号: TP391 文章蝙哥哥 I 1创胁….3428(2011 )02--0172,嗣-63 文献标识码IA 计算机领域术语的自动获取与层次构建 林摞 1,嘛事捎 1,孙悄 1,2 (1.北京林业大学信息学院,北京 lα浏阳; 2. 北京航窍航夭大学计算布L学院,北京 l佣19 1) 捕 哥:设计一种能够自动获取计算机领域术语的方案,提出3妻子规则与统计相结合的抽取方法,使用~马逊网站的计算机类阁书作为语 料库,通过分词、去停止词颁处理以及训频统计的方法提取出计算机类领域术语,并捕入到Ih ODP 构建的树巾,形成计算机领域水语的 层次给构。实验结果表明,与人工标注销果相比,使用该方法自动获取的术语有很高的准确率与召回率。 关键词:计算机领域术语;术语获取;层次结构; ODP 项目 Computer Domain Term Automatic Extraction and Hierarchical Structure Building Lll呼 Yuan1, CHEN Zhi嗣bol , SUN Qiao1,2 (1 ‘ School of Infonnation Science and Technology, Beijing Fores町 University, Beijing !(刷的, China; 2. School ofComputer Science and Engineering, Beihang University, Beijíng 100191, China) (Abstract )This paper present~ a computer domain tenn automatic extraction method b附d on rules and statistics. It uses computer 胁。,k tities from A website as corpus, data 盯e preprlωes忧d by words splitting, stop words and special characters filtering. Tenns are extracted by a set of rules and frequency statístics and inserted into a word tree 什om ODP 10 build the hierarchical structure. Experímental results show high precision ωd recall of the automatically extracted results compared with manual tagged tenns (Key words J computer domain 优nn; tenn extraction; hierarchical structure; Open Directory f汁。~ect(ODP) DOI: 1O.3969/j.issn.1创)()-3428.2011.02.059 1 概述 随苟向然语宵处用研究与应用的不断深入,以及计算机 业的蓬勃发展,构建计算机领域术语的需求变得越米越迫切。 计算机领域术语可以应用在信息处理技术的各个方橱,比如 文本分类、信息检索等。目前,计算机领域的术语烹要依靠 入工构建,代价十分巨大。因此,寻找一种自动化构建计算 机领域术语的万法,并能.时地发现新领域术语的任务变得 十分霞耍。本文提出一个计算机领域术语自动获取与层次结 构的构建方案,即基于规则与统计相结合的}f法向动提取计算机 领域术语,并把在概念上具有上下级逻辑联系的术语组成树形 结构。 2 术语获取技术 2.1 术语的概念和特点 术语是一种结合紧密的固定或半固定的词或知语,它还 是一种具有很强领域特征的词语lllo 术语可以是词也可以是 短语,是在特定的科学领域,用来表达概念的称谓。术语是 科学研究、文化交流不可或缺的工具,它具有以 F特点:术 语与普通词语的以别在于术语通常表示的娃在特定领域的词 汇,只有该领域的人使用,而一般词语是在各个领域赞迫使 用;术语通常只在本领域内疏通,离开了其特定的领域,引 用率几乎为 0; 基本上术语都是名词或名词性短话。 2.2 术语族取方法 术语的获取、术语朦的建立是术语学与术语标准化工作 的苦重要内容与孚段,将为文档分类以及信息抽取任务提供有 力的依据,在机器翻译、自动索引、建1i:l司法知识瘁方面也 有广

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档