- 6
- 0
- 约5.19万字
- 约 63页
- 2018-11-20 发布于广西
- 举报
w
w
摘 要
词义排歧在机器翻译、信息检索、句子分析和语音识别等许多领域有重要的作用。因此在自然语言处理领域,词义排歧方法的研究具有重要的理论和实践意义。本文主要研究在标注语料库支持下的基于有指导学习算法的词义排歧方法。
在词义排歧模型中引入有指导的AdaBoost.MH算法。首先通过简单决策树算法对多义词上下文中的知识源进行学习,产生准确率较低的弱规则;之后,通过AdaBoost.MH算法对这些弱规则进行加强;经过若干次迭代后,最终得到一个准确度更高的规则,即为最终的排歧模型。论文还针对系统的学习效率和实用性给出了一种简单终止算法迭代的方法。
为获取多义词上下文中的知识源,本文在采用传统的词性标注和局部搭配序列等知识源的基础上,引入了一种新的知识源,即语义范畴。实验结果表明语义范畴知识源的引入有助于提高算法的学习效率和排歧的正确率。
建立有指导学习算法所需的大规模人工标注语料是相当困难的,本文提出了一种通过WWW资源自动构建适合汉语多义词排歧的标注语料的方法。并通过实验验证了这种语料库的可用性。
在对6个典型汉语多义词和SENSEVAL3中文语料中20个汉语多义词的词义消歧实验中,AdaBoost.MH算法获得了较高的开放测试正确率(85.75%和75.84%)。
关键词:自然语言处理;词义排歧;AdaBoost.MH算法;知识源
关键词:自然语言处理;词义排歧;AdaBoost.MH算法;知识源
Abstract
Word sense disambiguation (WSD) plays an important role in many areas of natural language processing such as machine translation, information retrival, sentence analysis, speech recognition. The research on WSD has great theoretical and practical significance.The main work in the dissertation is to study the supervised learning algorithm learning WSD knowledge from many kinds of resources based on large sense-tagged Chinese corpus.
An approach based on supervised AdaBoost.MH learning algorithm for Chinese word sense disambiguation is presented. AdaBoost.MH algorithm is employed to learn WSD knowledge from many kinds of resources and to boost the accuracy of the weak stumps rules for decision trees and repeatedly calls a learner to finally produce a more accurate rule. A simple stopping criterion is also presented in view of the efficiency of learning and the utility of system.
As for Chinese WSD, in order to extract more contextual information, we introduce a new WSD knowledge semantic categorization as well as two classical knowledge sources: part-of-speech of neighboring words and local collocations. Experimental results show that the semantic categorization knowledge is useful for improving the learning efficency of the algorithm and accuracy of disambiguation.
Due to the flexibility and complexity of bulding up a broad coverage semantically annotate
您可能关注的文档
- 《徐州装载机厂人力资源管理现状及绩效考核研究》-毕业论文.doc
- 《栩栩如生动人心弦托物言志妙笔生花论文》-毕业论文.doc
- 《徐州市南郊矿大住宅楼方案设计》-毕业论文.doc
- 《宣威市旅游形象现状及相应优化策略》-毕业论文.doc
- 《玄意幽远与诗意虚静-魏晋南北朝玄学对诗学的影响》》-毕业论文.doc
- 《悬链线混凝土空腹式箱形拱桥设计与计算》-毕业论文.doc
- 《旋耕播种机设计》》-毕业论文.doc
- 《旋转机械的振动研究》-毕业论文.doc
- 《旋转磁场仪硬件和软件设计》-毕业论文.doc
- 《旋转机械故障诊断特诊参数的提取》》-毕业论文.doc
- 2026年中国窗饰产品市场全景调查与市场供需预测报告.docx
- 2026年中国船舶水下清洗行业深度研究报告:市场需求预测、进入壁垒及投资风险.docx
- 2026年中国船用绞车行业运行态势及十五五盈利前景预测报告.docx
- 2026年中国橱柜行业深度调研报告.docx
- 2026年中国船用绞车市场深度调研及投资前景战略分析报告.docx
- 2026年中国船用配套设备市场发展策略及投资潜力可行性预测报告.docx
- 2026年中国储能材料行业运营态势与投资前景预测分析报告.docx
- 2026年中国储氢材料行业运营现状及发展规划分析报告.docx
- 2026年中国传真机市场深度研究及投资前景咨询报告.docx
- 2026年中国储能变流器(PCS)产业深度评估与发展前景趋势分析研究报告.docx
原创力文档

文档评论(0)