- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于依存分析和贝叶斯网络地无指导汉语词义消歧
基于依存分析和贝叶斯网络的无指导汉语词义消歧①
②
卢志茂 刘 挺 李 生
(哈尔滨工业大学信息检索研究室 哈尔滨 150001 )
{lzm, tliu}@
摘要 目前进行的很多词义消歧研究多采用几个多义词作为实验测试对象,在实际应用方面存在着局限性,
本文采用了基于依存分析改进贝叶斯网络的无指导的机器学习方法对汉语大规模真实文本进行词义消歧实
验。该学习算法充分利用依存文法分析确定能够对词语词义构成内在限制的上下文,有效地克服了简单贝叶
斯分类器中无关上下文造成的噪声影响。实验结果证明基于依存改进的贝叶斯模型在汉语词义消歧上表现良
好,开放测试正确率可达 86.27%。
关键词:词义消歧、自然语言处理、无指导学习算法、依存文法分析、简单贝叶斯网络
等。其中,双语对齐方法需要双语对齐语料,如
0 引言
何获得大规模的双语对齐语料是一个有待解决的
词义消歧(WSD)一直是自然语言处理 (NLP ) 问题;机器可读词典方法存在难以克服的噪声问
领域一个重要的热点研究问题,词义自动消歧对 题;向量空间模型中词义聚类方法的学习过程复
于包括信息检索、机器翻译、文本分类和自动文 杂,时间开销过大。上述的几种方法在实现大规
摘等在内的许多自然语言处理系统十分有用。如 模真实文本的词义消歧上都存在着各自的局限
在信息检索中,利用词义消歧技术可使整个系统 性,如何弥补这些方法的缺憾或者寻找更好的替
的检索正确率提高 3.2 个百分点[1], 结果得到明 代方法将是很有意义的研究工作。
显的改善,词义消歧在自然语言处理方面的基础 本文提出了一种基于依存分析改进贝叶斯网
作用可见一斑。 络的无指导词义消歧方法,利用汉语知识库
用在词义消歧上的机器学习方法很多,其中 HowNet 对汉语语料进行词义消歧实验。
统计学方法随着语料库语言学的兴起,以及良好
1 基于依存分析改进的贝叶斯网络
的词义消歧效果受到自然语言处理领域的广泛关
注,并且逐渐占据了主流地位。基于语料库的统 本文提出的方法是在贝叶斯假设的基础上,
计方法根据训练语料事先是否经过人工标注又可 只考虑词汇语法之间的内在关联对特定环境中词
以分为有指导的和无指导的两类。有指导的机器 义的贡献,借助依存文法分析来找出这种词义关
学习方法在词义消歧问题中取得了较好的效果, 联。本文假设不存在词义关联的上下文对于歧义
但是该类方法为了克服数据稀疏问题,获得更好 词语特定词义的贡献为 0,存在语法关联的上下
的学习和消歧效果,必须有规模更大的标准语料 文对词义的贡献相互独立,并且没有顺序的限制。
库的支持。而标准语料的获得需要耗费代价高昂 选择与歧义词汇存在语法关联的上下文作为模型
的人工,很难实现基于大规模标准语料的有导词 中的特征值,这样做既可以减少无关上下文对词
义消歧工作,客观上也限制了该类方法的推广和 义分类产生的噪音,又可以大幅度减少计算次数,
应用。 在提高消歧准确率的同时,明显提高消歧的工作
而无指导的词义消歧方法不依赖于人工标注 效
您可能关注的文档
最近下载
- 新能源汽车动力蓄电池回收利用PPT精选文档.ppt
- 23秋国家开放大学《学前儿童音乐教育活动指导》大作业参考答案.docx
- 国开2023春《形势与政策》形考任务专题测验+国开2023春《形势与政策》大作业).docx VIP
- 一种嵌段结构的低泡聚醚及其制备方法.pdf VIP
- 七年级历史下册期末考试卷及答案.docx VIP
- 高中数学课件——-微积分基本定理.pptx
- “党纪党规教育课件.pptx VIP
- 十二经脉的归经食物,饮食养生,平衡五脏六腑,值得收藏.pdf
- 一种工艺管道预制环节SPOOL自动拆分方法.pdf VIP
- 2022-2023学年广东省深圳市宝安区七年级(下)期末考试道德与法治试题(含解析).docx VIP
文档评论(0)