- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关联规则挖掘的汉语语义搭配规则获取方法-core
第 46 卷 第 3 期 ( ) Vol . 46 No . 3
厦门大学学报 自然科学版
2007 年 5 月 J our nal of Xiamen U niver sit y (N at ural Science) May 2007
基于关联规则挖掘的汉语语义
搭 配 规 则 获 取 方 法
郑旭玲 ,周昌乐 ,李堂秋 ,陈毅东
(厦门大学计算机科学系 ,福建 厦门 36 1005)
摘要 : 针对 自然语言处理系统在短语分析时的词汇排歧和结构排歧需要 ,本文提出了一种基于语料库的汉语短语语义
搭配规则自动获取方法. 该方法以《知网》为语义知识资源 ,在标注了句法语义信息的汉语短语熟语料库基础上 ,先采用
数据挖掘中元规则制导的交叉层关联规则挖掘方法 , 自动发现汉语短语的语义搭配规律 ,再根据统计结果自动优选后生
成语义搭配规则库. 实验结果表明该方法是切实可行的. 运用该方法 自动获取的语义搭配规则具有较好的排歧效果.
关键词 : 语义规则 ;语料库 ;关联规则 ;知网
TP 39 1. 2 A (2007) 03033 106
中图分类号 : 文献标识码 : 文章编号 :
在机器翻译 、信息检索 、文本分类等诸多自然语言 语义搭配规则和发现新的语义搭配规则.
处理系统中 ,短语分析都是至关重要的一个环节 ,其分
析质量的优劣直接影响系统的最终性能. 歧义现象的 1 语义搭配规则获取系统的架构
存在给短语自动分析设置了巨大的无法回避的障碍. 基于语料库的方法利用计算机对语料进行统计归
仅仅依靠词法和语法知识来消解短语分析中大量存在 纳 ,既减少了语言知识描述系统构造中的主观性 ,又降
的词汇歧义和结构歧义是远远不够的. 尤其是在分析 低了语言学家的工作难度和强度. 故我们的系统采用
像汉语这样形态特征较少而内涵却极为丰富的“意合” 基于语料库的方法 ,其架构及工作流程如图 1 所示.
语言的短语时 ,更需要引入“具有什么语义的词语可以 我们的系统采用《知网》的语义知识表示体系[ 1 ] .
相互组合 、以怎样的方式组合成怎样的短语”这样的语 初始语料库是一个由大量真实文本中抽取的实例组成
义搭配规则知识. 另一方面 ,对汉语短语的语义搭配规 的汉语短语生语料库. 首先 ,依据语言学家提供的初始
则的研究 ,不仅能为短语分析提供有效指导 ,从而提高 语言知识 ,对其进行人机交互的半 自动加工 ,标注上
短语结构和语义分析的正确率 ,而且还能辐射对汉语 各短语中每个词语的词性 、义项[ 1 ] 和词语间的句法结
词和句子的研究 ,促进汉语文本分析质量的全面改善.
然而 ,这方面研究面临语义知识的形式化表示和语义
搭配规则库的构造两大瓶颈问题.
近些年来 , 国内外在构建语义知识表示体系的工
程实 践方 面 取 得 了不 少 成 果 , 开 发 出 Wor dN et 、
FrameN et 、How net [ 1 ] 等计算机用语义词典. 相 比之
下 ,语义搭配规则库的构造相对薄弱些. 詹卫东[2 ] 、俞
[ 3 ] [4 ]
士汶 、董振东和董强 等人对汉语短语的语义规则
作了大规模的系统研究 ,并取得了一些成果. 但这些规
则主要是通过基于直觉的方法获得的 ,其准确性和完
备性比较难以保证.
我们的研究工作是尝试利用语料库来自动获取汉
语短语的语义搭配规则 ,从而验证已有的基于
您可能关注的文档
- 北京康达律师事务所关于浙江盛洋科技股份有限公司2016年第四次.pdf
- 国际典型的产学研协同创新机制研究.pdf
- 国际空置税比较-ecyy.pdf
- 北京师范大学外国语言文学学院-中国英语阅读教育研究院教师发展.pdf
- 北京四中院金融借款合同纠纷审判白皮书-中国节能环保集团公司.pdf
- 国际贸易中心itc联合咨询小组jag第45次会议报告.pdf
- 图书馆20的理论研究与实践-图书与情报.pdf
- 北京旧机动车买卖合同-北京工商局.doc
- 北京新课程高考改革方案研究-北京教育科学规划.pdf
- 图书馆大搜集报告.pdf
- 关于进一步明确进口机动车辆检验监监管有关-河北出入境检验检疫局.doc
- 基于分裂bregman迭代的混合正则化重力场反演-openrepository.pdf
- 十二年国民基本教育的问题与解决之道以教育部技职校院南区区域.pdf
- 医院实施无纸化之规划与紧急应变策略.pdf
- 基于动态能力视角的知识流动过程模型构建.pdf
- 基于分布式算法的fir优化设计-电子器件.pdf
- 基于协作通信技术的无线再生中继网络中的功率最优分配.pdf
- 关于细分面元观测系统的讨论-石油地球物理勘探.pdf
- 基于协同进化和并行计算的船舶管路布置方法-大连理工大学学报.pdf
- 基于参数化全散度的cv模型阈值分割方法-计算机应用与软件.pdf
原创力文档


文档评论(0)