基于关联规则挖掘的汉语语义搭配规则获取方法.pdfVIP

基于关联规则挖掘的汉语语义搭配规则获取方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Vo l. 46 No.3 第 46 卷第3 期 厦门大学学报(自然科学版) 2007 年 5 月 Journal of Xiamen University CNatural Science) May 2007 基于关联规则挖掘的汉语语义 搭配规则获取方法 郑旭玲,周昌乐怜,李堂秋,陈毅东 (厦门大学计算机科学系,福建厦门 361005) 摘要:针对自然语言处理系统在短语分析时的词汇排歧和结构排歧需要,本文提出了一种基于语料库的汉语短语语义 搭配规则自动获取方法.该方法以《知网》为语义知识资源,在标注了句法语义信息的汉语短语熟语料库基础上,先采用 数据挖掘中元规则制导的交叉层关联规则挖掘方法,自动发现汉语短语的语义搭配规律,再根据统计结果自动优选后生 成语义搭配规则库.实验结果表明该方法是切实可行的.运用该方法自动获取的语义搭配规则具有较好的排歧效果. 关键词:语义规则;语料库;关联规则;知网 中国分类号:TP 39 1. 2 文献标识码:A 文章编号:0438-0479(2007)03-0331-06 语义搭配规则和发现新的语义搭配规则. 在机器翻译、信息检索、文本分类等诸多自然语言 处理系统中,短语分析都是至关重要的一个环节,其分 1 语义搭配规则获取系统的架构 析质量的优劣直接影响系统的最终性能.歧义现象的 存在给短语自动分析设置了巨大的元法回避的障碍. 基于语料库的方法利用计算机对语料进行统计归 仅仅依靠词法和语法知识来消解短语分析中大量存在 纳,既减少了语言知识描述系统构造中的主观性,又降 的词汇歧义和结构歧义是远远不够的.尤其是在分析 低了语言学家的工作难度和强度.故我们的系统采用 像汉语这样形态特征较少而内涵却极为丰富的意合 基于语料库的方法,其架构及工作流程如图 l 所示. 语言的短语时,更需要引入具有什么语义的词语可以 我们的系统采用《知网》的语义知识表示体系[IJ 相互组合、以怎样的方式组合成怎样的短语这样的语 初始语料库是一个由大量真实文本中抽取的实例组成 义搭配规则知识.另一方面,对汉语短语的语义搭配规 的汉语短语生语料库.首先,依据语言学家提供的初始 则的研究,不仅能为短语分析提供有效指导,从而提高 语言知识,对其进行人机交互的半自动加工,标注上 短语结构和语义分析的正确率,而且还能辐射对汉语 各短语中每个词语的词性、义项[IJ 和词语间的句法结 词和句子的研究,促进汉语文本分析质量的全面改善. 然而,这方面研究面临语义知识的形式化表示和语义 搭配规则库的构造两大瓶颈问题. 近些年来,国内外在构建语义知识表示体系的工 程实践方面取得了不少成果,开发出 WordNet、 FrameNet、 Hownet[IJ 等计算机用语义词典.相比之 下,语义搭配规则库的构造相对薄弱些.詹卫东[2J 、俞 士汶川、董振东和董强川等人对汉语短语的语义规则 作了大规模的系统研究,并取得了一些成果.但这些规 则主要是通过基于直觉的方法获得的,其准确性和完

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档