- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机领域术语的自动获取与层次构建.pdf
第 37 卷第 2 期
Vol.37 No.2
计算机工程
Computer Engineering
月
川
lloo -Jqb
呻
盯
mm
·人工智能及识别技水· 中阳分费号: TP391 文章蝙哥哥 I 1创胁….3428(2011 )02--0172,嗣-63 文献标识码IA
计算机领域术语的自动获取与层次构建
林摞 1,嘛事捎 1,孙悄 1,2
(1.北京林业大学信息学院,北京 lα浏阳; 2. 北京航窍航夭大学计算布L学院,北京 l佣19 1)
捕 哥:设计一种能够自动获取计算机领域术语的方案,提出3妻子规则与统计相结合的抽取方法,使用~马逊网站的计算机类阁书作为语
料库,通过分词、去停止词颁处理以及训频统计的方法提取出计算机类领域术语,并捕入到Ih ODP 构建的树巾,形成计算机领域水语的
层次给构。实验结果表明,与人工标注销果相比,使用该方法自动获取的术语有很高的准确率与召回率。
关键词:计算机领域术语;术语获取;层次结构; ODP 项目
Computer Domain Term Automatic Extraction
and Hierarchical Structure Building
Lll呼 Yuan1, CHEN Zhi嗣bol , SUN Qiao1,2
(1 ‘ School of Infonnation Science and Technology, Beijing Fores町 University, Beijing !(刷的, China;
2. School ofComputer Science and Engineering, Beihang University, Beijíng 100191, China)
(Abstract )This paper present~ a computer domain tenn automatic extraction method b附d on rules and statistics. It uses computer 胁。,k tities from
A website as corpus, data 盯e preprlωes忧d by words splitting, stop words and special characters filtering. Tenns are extracted by a set of
rules and frequency statístics and inserted into a word tree 什om ODP 10 build the hierarchical structure. Experímental results show high precision
ωd recall of the automatically extracted results compared with manual tagged tenns
(Key words J computer domain 优nn; tenn extraction; hierarchical structure; Open Directory f汁。~ect(ODP)
DOI: 1O.3969/j.issn.1创)()-3428.2011.02.059
1 概述
随苟向然语宵处用研究与应用的不断深入,以及计算机
业的蓬勃发展,构建计算机领域术语的需求变得越米越迫切。
计算机领域术语可以应用在信息处理技术的各个方橱,比如
文本分类、信息检索等。目前,计算机领域的术语烹要依靠
入工构建,代价十分巨大。因此,寻找一种自动化构建计算
机领域术语的万法,并能.时地发现新领域术语的任务变得
十分霞耍。本文提出一个计算机领域术语自动获取与层次结
构的构建方案,即基于规则与统计相结合的}f法向动提取计算机
领域术语,并把在概念上具有上下级逻辑联系的术语组成树形
结构。
2 术语获取技术
2.1 术语的概念和特点
术语是一种结合紧密的固定或半固定的词或知语,它还
是一种具有很强领域特征的词语lllo 术语可以是词也可以是
短语,是在特定的科学领域,用来表达概念的称谓。术语是
科学研究、文化交流不可或缺的工具,它具有以 F特点:术
语与普通词语的以别在于术语通常表示的娃在特定领域的词
汇,只有该领域的人使用,而一般词语是在各个领域赞迫使
用;术语通常只在本领域内疏通,离开了其特定的领域,引
用率几乎为 0; 基本上术语都是名词或名词性短话。
2.2 术语族取方法
术语的获取、术语朦的建立是术语学与术语标准化工作
的苦重要内容与孚段,将为文档分类以及信息抽取任务提供有
力的依据,在机器翻译、自动索引、建1i:l司法知识瘁方面也
有广
文档评论(0)