中文学科术语相关语义关系获取方法研究.docVIP

中文学科术语相关语义关系获取方法研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文学科术语相关语义关系获取方法研究 (1.南京大学信息管理学院江苏南京210023) (2.江苏省数据工程与知识服务重点实验室江苏南京210023) 摘要:文章对中文非结构化文本中(半)自动获取学科术语的相关 语义关系进行了探讨,以寻找行之有效的获取方法。从CNKI获取“数字 图书馆”学科领域文献,通过术语抽取、动词抽取、向量空间模型构建、 双重关联规则分析和规则评价获得了具有较强关联的术语对以及作为关 联标签的动词,从而获取了学科术语的相关语义关系。该获取方法与其他 方法相比,具有较高的可行性和有效性,并对术语的相关语义关系进行了 有效性和实用性的评价,提高了获取的准确率。但文章也存在一定的局限 性,在对术语相关语义关系的有效性和实用性进行评价时,指标的选择和 阈值的确定存在人工干预,具冇一定的主观性。 关键词:学科术语;相关语义关系;数据挖掘:关联规则;规则评价 中图分类号: G202文献标识码: A D0I : 10.11968/tsyqb. 1003-6938. 2017041 1引言 学科术语的语义关系总体上可分为两大类:分类语义关系(层次语义 关系)和非分类语义关系,本文将非分类语义关系称为相关语义关系。层 次语义关系和相关语义关系均是学科知识本体的重要组成部分,它们将学 科术语按照语义关系进行组织,为学科知识的搜索、重用及进一步理解提 供条件[1]。在文献[1]中,作者对如何借助知识自动获取方法和技术获得 领域术语的层次语义关系进行了研宂,木文将探讨如何从中文非结构化文 本中(半)自动获得学科术语的相关语义关系。 相较于层次语义关系,相关语义关系的获取更为困难,目前国内外对 此的研究也较少,常用的获取相关语义关系的方法之一是普通关联规则分 析。该方法能获取术语的相关语义关系,但只能获得具有相关语义关系的 术语对,而不能获得关系的标签[2]。 本文将术语的相关语义关系限定为的三元组关系,试图在建立句子- 术语向量空间模型和句子-向量空间模型的基础上,引入双重关联规则分 析以及规则评价,由此形成一种从屮文非结构化文本获取学科术语相关语 义关系的具体方法。双重关联规则分析还没被发现应用在学科术语相关语 义关系的获取中,因此,木文尝试引入该方法获得术语的相关语义关系, 并借助相关指标来评价规则的有效性和实用性。 2相关研宄 国内外有学者对基于非结构化文本获取术语的相关语义关系进行了 研宄。如David等[3]提出了一个自动的、无监督的获取概念相关语义关 系的方法,该方法从网络文木提取术语的相关语义关系,并通过与Wordnet 进行比?验证方法的有效性;J. Villaverde等[4]对领域文本语料库进行 分析,抽取连接概念对的动词,并将这一技术集成到了本体构建的过程中; Albert等[5]通过集成类似DBpedia这样的外部知识源到本体学习系统屮 获得相关语义关系的标签。该方法应用了语义推理和验证,使得获取的相 关语义关系质量较高;Mei Kuan Wong等[6]提出基于一种多步骤相关研究 框架从非结构化文本中获取术语的相关语义关系;Ivo Serra等[7]采用两 个过程对获取概念相关语义关系的多种技术和方法进行了评价,并在生物 学领域语料库和法律领域语料库中进行了验证;Martin等使用扩展的关联 规则获取术语的相关语义关系以及给出了关系的标签,并且基于已有语义 标注的语料库对方法进行了评估[8]。 董丽丽等[9]首先通过关联规则抽取特定领域术语对,接着抽取术语 对之间的高频动词,将它们作为候选相关语义关系标签,然后运用VFXICF 度量方法确定相关语义关系的标签;古凌岚等[10]运用语义角色标注和依 存语法分析获取文本句子的语义依存结构,提取出具有语义依存关系的动 词框架,通过语义相似度计算发现动词框架屮术语间的相关语义关系和关 系标签;邱桃荣等[11]通过分析概念粒的上下文,构建了基于不同领域概 念粒度空间的概念粒交叉关系学习模型,有利于实现领域木体相关语义关 系的获取;王红等[12]提出了基于NNV (名词-名词-动词)的关联规则获 取术语相关语义关系及其标签的方法;张立国等[13]对语料进行词性标注 和语义分析,得到具有语义依存关系的动词框架,然后再计算句子的相似 度,抽取出术语的相关语义关系并给出关系的标签;谷俊等[14]在关联规 则中加入谓语动词进行相关计算,结合搜索引擎技术抽取候选相关语义关 系,在此基础上对置信度和支持度进行对比分析,抽取出最终的相关语义 关系。 综上可知,国内外学者尝试通过关联规则分析、语义依存分析等来获 取术语的相关语义关系,而关联规则分析的应用又较多。作为相关语义关 系标签的动词的获取还没有形成有效统一的方法。此外,上述方法对于所 获规则的有效性和实用性并没有进行评价。

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档