- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于向量空间模型中义项词语的无导词义消歧a-citeseerx
1000-9825/2002/13(06)1082-08 ©2002 Journal of Software 软 件 学 报 Vol.13, No.6
基于向量空间模型中义项词语的无导词义消歧
鲁 松, 白 硕, 黄 雄
( 中国科学院 计算技术研究所,北京 100080)
E-mail: songl@; bai@
摘要: 有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标
注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习
方法.在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空间中,基于 k-NN(k=1)方法,计
算二者相似度来实现词义消歧任务.在对 10 个典型多义词进行词义消歧的测试实验中,采用该方法取得了平均
正确率为83.13%的消歧结果.
关 键 词: 词义消歧;无导方法;义项词语;上下文位置权重计算;向量空间模型
中图法分类号: TP391 文献标识码: A
多义词的词义消歧是为了解决自然语言中同形异义词语在不同上下文环境中的义项标注问题.该问题普
遍存在于各种自然语言之中.在汉语词典中,多义词约占汉语词语集合的 14.8%,但在汉语语料中,多义词出现频
率约占语料总词次的42%[1] .可见,多义词在自然语言中尽管数量不多,但出现频率却极高.
同时,多义词分布的普遍性决定了多义词词义消歧任务必然成为多种应用问题的关注焦点之一,诸如机器
翻译、信息检索、自然语言内容语义分析、语法分析、语音识别和文语转换[2] .据统计,在信息检索(information
[3]
retrieval) 中引入部分多义词消歧技术以后,可使其整个系统的正确率由29%提高到34.2%,取得较明显的改善 .
可见,只要涉及自然语言的计算机应用,多义词的词义消歧工作就是不可回避的基础问题.
从方法论角度来讲,许多计算语言学问题都可以被形式化为一个分类问题(classification). 同样,词义消歧问
题也是一个典型的分类问题, 即一个多义词在一定的上下文环境中的义项被有限个义项类别进行归属.在早期
[4] [5]
手工规则方式效果不佳的情况下,各种机器学习的分类方法被应用于词义消歧任务中,如决策树 、决策表 、
[6] [7] [8] [1]
Naive-Bayes 、神经网络 、Exemplar-Based Learning 、最大熵方法 等.与手工提取规则比较,尽管这些有导
的机器学习方法在多义词消歧问题中取得了较好的效果,但同手工规则一样,有导分类方法难以实现大规模多
义词词义知识的学习和消歧任务.其原因只有一个, 即为了获得较好的学习效果和避免数据稀疏问题,必须对训
练语料中的多义词进行大量代价高昂的人工义项标注工作.因此,很难实现大规模的多义词消歧工作.
由此,无导的多义词词义消歧方法开始引起关注.其中典型的方法有双语对齐方法[9] 、机器可读词典方法[10]
[11]
和向量空间中的词义识别方法 .在这些方法中,双语对齐语料的获取本身就是一个有待解决的问题;机器可读
词典方法面临大量难以克服的噪音问题;而词空间(word space) 中词义聚类方法的学习过程复杂,时间开销过
大,且其侧重点在多义词的词义识别上.因此,上述方法针对大规模的多义词词义消歧都有其局限性.
本文也提出了一种基于向量空间模型的无导词义消歧学习方法. 向量空间模型(vector space model)来源于
收稿日期: 2000-08-01; 修改日期: 2001-03-26
基金项目: 国家自然科学基金资助项目; 国家 863 高科技发展计划资助项目(863-306-2D02-01-3); 国家重点基础研
究发展规划973 资助项目(G 1998030510)
作者
您可能关注的文档
- 基于随机petri网模型的地区电网事故链监控研究-电力系统保护与控制.pdf
- 基于水平集和凹点区域检测的粘连细胞分割方法-北京邮电大学学报.pdf
- 基于随机波动性模型的中国股波动性估计①-管理科学学报-天津大学.pdf
- 基于随机时间petri网的安全性分析方法-计算机科学.pdf
- 基于水量水质双控制的流域水资源分配模型-水科学进展.pdf
- 基于随机森林模型的林地叶面积指数遥感估算-农业机械学报.pdf
- 基于特征点组合聚类的图像检索新方法-大连理工大学学报.pdf
- 基于特征子集区分度与支持向量机的特征选择算法-计算机学报.pdf
- 基于条件随机域的词性标注模型.pdf
- 基于听觉小波包自适应语音增强方法-华南师范大学学报.pdf
文档评论(0)