- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向领域中文文本信息处理术语识别与抽取研究综述
面向领域中文文本信息处理的术语识别与抽取研究综述
[摘要]领域中文术语识别与抽取是领域中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。在对领域术语的内涵和特征的阐述基础上,重点对领域中文术语识别与抽取的研究现状、主要的方法以及典型的应用进行综述,最后指出其未来的发展趋势。
[关键词]术语抽取术语识别领域中文信息处理
[分类号]G358 TP391
随着计算机和网络技术的不断发展,涉及不同领域的不同文献类型、不同格式的信息不断喷涌。这其中,以自然语言为特征的文本数据是主要的信息内容之一,这些文本信息是进行科学研究、企业竞争情报研究的宝贵知识源泉,如何处理和利用这些文本型数据至关重要。
中文文本信息在这些年更是飞速增长。然而中文文本信息因缺乏那些以通过空格隔开的单词序列为特征的语种信息在计算机化信息处理方面的天然便利,处理工作显得困难重重,这其中首先要做的是对中文文本信息进行自动词语切分,对切分歧义进行处理,识别和提取中文文本信息中所包含的新的命名实体、概念、术语等。
中文术语识别与抽取在自然语言处理领域有着广泛的应用,是领域中文文本信息处理的重要基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。
1 术语的内涵与特征
1.1 术语的界定
术语是领域专家用来刻画、描写领域知识的基本信息承载单元,是信息检索和信息抽取的重要单元,是知识库中的核心成员,也是本体构成的基本单元。一般来说,术语主要包括未登录词、单个词术语和常用名词性短语。目前有关中文文本信息中的术语识别和抽取的研究多体现于对人名、地名和组织名等命名实体的识别和抽取,这些命名实体的识别可以通过建立规则特征库来予以辅助,因此难度方面稍小。对于领域中文文本信息处理来说,更重要的是识别并提取那些与特定领域相关的新的概念、术语等名词以及与这些名词相关的新的属性、新的特征(名词特征、谓词特征)等,这种??广泛层面上的术语识别和抽取对于领域文本信息处理和挖掘有着极其重要的意义。
1.2 术语的特征
要有效正确地进行领域术语的边界标注与识别提取,就必须深入地理解领域术语以下两个方面的特征:
1.2.1 术语的语言结构特征作为领域文本的构成单元,术语首先是一种语言符号,其符合语言学中的语法、语义、语用等方面的规律。从外部关联来看,领域术语大多是名词性短语,其经常作为领域文本句子中的主语、宾语、定语等成分;从其内部语法构成来看,其组成形式包括名词+名词(比如“磁电机轴”)、形容词+名词(比如“可变抗阻装置”)、动词+名词(比如“超越离合器”)、动词(名词)+单字名词(比如“导热板”),等等;按照术语的前后界有无明显标记,可以将领域术语分为:有前后界标记(如科学论文的关键词)、有前界或后界标记(如作为句子的起始部分或者结束部分的术语)和无前后标记的词语(混合在文本中的术语);中文术语长度主要是2―6个字;有些字几乎不可能出现在术语中,比如“的”、“些”、“是”等。对于英文、拉丁文、法文等西文字符语言,有些术语还具有特定的前后缀形态。利用领域术语的这些语言特征,一些研究者试图通过穷举领域术语的语言结构规则,基于模板匹配来实现对领域术语的识别和抽取。
1.2.2 术语的领域特征术语的领域特征指术语一般只在一个或几个特定的领域文本中出现,只有该特定领域的人使用,而一般词语是所有使用该语言的人通用的;术语在特定领域的流通性较大,而在其余领域流通性很小,几乎为零,而一般词语在各领域的流通性都相差不多;每个学科领域的词语集合由一般词语集合加上这个领域的术语组成。
目前的术语抽取方法多侧重于术语的语言结构完整性,忽略了术语的领域特征,周浪提出基于词频分布变化统计的术语抽取方法来解决这一问题,取得了不错的效果。术语的领域特征将是未来研究提高术语抽取准确率和召回率所要重点加入考虑的因素。
2 中文术语抽取的研究现状及困难
术语识别与抽取(Term Extraction or Recognition)是指从特定的科学或技术领域的语料库中抽出专业领域的术语。术语抽取作为信息抽取的重要内容,越来越受到人们的重视。目前国内外已有很多学者开始研究,尤其是国外已经推出了一些相关的成熟产品,但是大部分关于术语抽取的研究是针对英语等西方语言的,中文术语抽取与西方语言相比,存在自身的特点和难点,主要如下:①汉语词汇是一个开放的集合,无论建立多么大的词典,都不可能穷举所有的词,而且随着时间的转移还会不断出现大量新词。比如未登录词,它包括各类专有名词和一些术语、缩略词、新词等;②对于中文来说
文档评论(0)