- 4
- 0
- 约5.19万字
- 约 63页
- 2018-11-20 发布于广西
- 举报
摘 要
词义排歧在机器翻译、信息检索、句子分析和语音识别等许多领域有重要的作用。因此在自然语言处理领域,词义排歧方法的研究具有重要的理论和实践意义。本文主要研究在标注语料库支持下的基于有指导学习算法的词义排歧方法。
在词义排歧模型中引入有指导的AdaBoost.MH算法。首先通过简单决策树算法对多义词上下文中的知识源进行学习,产生准确率较低的弱规则;之后,通过AdaBoost.MH算法对这些弱规则进行加强;经过若干次迭代后,最终得到一个准确度更高的规则,即为最终的排歧模型。论文还针对系统的学习效率和实用性给出了一种简单终止算法迭代的方法。
为获取多义词上下文中的知识源,本文在采用传统的词性标注和局部搭配序列等知识源的基础上,引入了一种新的知识源,即语义范畴。实验结果表明语义范畴知识源的引入有助于提高算法的学习效率和排歧的正确率。
建立有指导学习算法所需的大规模人工标注语料是相当困难的,本文提出了一种通过WWW资源自动构建适合汉语多义词排歧的标注语料的方法。并通过实验验证了这种语料库的可用性。
在对6个典型汉语多义词和SENSEVAL3中文语料中20个汉语多义词的词义消歧实验中,AdaBoost.MH算法获得了较高的开放测试正确率(85.75%和75.84%)。
关键词:自然语言处理;词义排歧;AdaBoost.MH算法;知识源
关键词:自然语言处理;词义排歧;AdaBoost.MH算法;知识源
Abstract
Word sense disambiguation (WSD) plays an important role in many areas of natural language processing such as machine translation, information retrival, sentence analysis, speech recognition. The research on WSD has great theoretical and practical significance.The main work in the dissertation is to study the supervised learning algorithm learning WSD knowledge from many kinds of resources based on large sense-tagged Chinese corpus.
An approach based on supervised AdaBoost.MH learning algorithm for Chinese word sense disambiguation is presented. AdaBoost.MH algorithm is employed to learn WSD knowledge from many kinds of resources and to boost the accuracy of the weak stumps rules for decision trees and repeatedly calls a learner to finally produce a more accurate rule. A simple stopping criterion is also presented in view of the efficiency of learning and the utility of system.
As for Chinese WSD, in order to extract more contextual information, we introduce a new WSD knowledge semantic categorization as well as two classical knowledge sources: part-of-speech of neighboring words and local collocations. Experimental results show that the semantic categorization knowledge is useful for improving the learning efficency of the algorithm and accuracy of disambiguation.
Due to the flexibility and complexity of bulding up a broad coverage semantically annotated co
您可能关注的文档
- 《徐州矿务集团权宇实业有限公司会计核算和财务管理调查报告》-毕业论文.doc
- 《徐州装载机厂人力资源管理现状及绩效考核研究》-毕业论文.doc
- 《栩栩如生动人心弦托物言志妙笔生花论文》-毕业论文.doc
- 《徐州市南郊矿大住宅楼方案设计》-毕业论文.doc
- 《宣威市旅游形象现状及相应优化策略》-毕业论文.doc
- 《玄意幽远与诗意虚静-魏晋南北朝玄学对诗学的影响》》-毕业论文.doc
- 《悬链线混凝土空腹式箱形拱桥设计与计算》-毕业论文.doc
- 《旋耕播种机设计》》-毕业论文.doc
- 《旋转机械的振动研究》-毕业论文.doc
- 《旋转磁场仪硬件和软件设计》-毕业论文.doc
- 2025-2026学年教科版(新教材)小学音乐一年级第二学期教学计划及进度表.docx
- 2025-2026学年冀少版小学音乐四年级下册教学计划及进度表.docx
- 2025-2026学年辽海版(新教材)小学音乐一年级第二学期教学计划及进度表.docx
- 2025-2026学年人教版(新教材)小学数学二年级第二学期教学计划及进度表.docx
- 2025-2026学年人教版(新教材)小学数学三年级第二学期教学计划及进度表.docx
- 2025-2026学年人教版小学数学五年级下册教学计划及进度表.docx
- 【图片】25-26学年1月27日八上南京联合体【栖霞、雨花、江宁、浦口、溧水区】期末卷【含评分标准】.doc
- 1.1细胞生活的环境 课件 高二上学期选择性必修1生物人教版(2019).pptx
- 【图片】25-26学年1月27日九上南京联合体【栖霞、雨花、江宁、浦口、溧水区】期末卷【含评分标准与学生A3答题卡】.pdf
- 3.1《认识晶体》课件-高二上学期化学鲁科版选择性必修2.pptx
最近下载
- 2026年放射医学技术资格(放射影像学)考试题及答案.doc VIP
- 2026年放射医学技士(放射基础)考试题及答案.doc VIP
- 天津市部分区2024-2025学年高一上学期期末练习试题 物理 (PDF版,含答案).docx VIP
- 2025年湖南省长沙市湘郡培粹实验中学小升初语文试卷.doc VIP
- AI眼镜拆解及BOM成本报告:Meta+Display+AR眼镜.pdf VIP
- 教研室主任述职报告书.pptx VIP
- 教研室主任2025年度工作述职报告.pptx VIP
- 2022-2023学年江苏省常州市九年级上学期期末数学试题.pdf VIP
- 火炬之光2控制台命令大全(传奇,常用,附魔,卷轴,装备,宝.doc VIP
- 中央空调水蓄冷.ppt VIP
原创力文档

文档评论(0)