基于模式的中文反语识别.pdf

下载文档 降价啦

9
0
约11.16万字
约 53页
2020-08-10 发布于江苏
举报
版权申诉
保障服务

基于模式的中文反语识别.pdf

1、本文档共53页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要本文提出了一种基于模式的反语自动识别方法。本文的主要目的是检验是否能根据有关反语的语言学理论，设计出一系列具有区别性的特征，以及当这一系列特征用于训练模型，进行中文反语自动识别时，检验这一系列特征的有效性。为了达到本研究的目的，首先根据相关语言学理论设计出一系列语言学特征，其中包括基于模式的特征，情感特征，以及程度词特征。接着，从以往研究中选出常用的统计性特征，以此和语言学特征做出对比，同时也可用于进一步强化模型。第三步，从两个自建语料库，平衡语料库和非平衡语料库中提取出这些特征值。然后将来自两个语料库的不同的特征值分别输入到三个支持向量机算法中，一个输入语言学特征，一个输入统计性特征，一个输入全部特征。由此，支持向量机可以训练出6 个不同的模型用于中文反语自动识别。最后，通过观察这6 个模型的泛化性能可得出研究结论。本研究的主要发现有：1）本文设计出的语言学特征可以大大提升模型的泛化性能。2）由所有特征训练出的模型的泛化性能优于之前的其他学者的同类研究结果。3）由语言学特征或统计性特征训练出的模型，其泛化性能均优于‘选择大多数’的基准。结果表明以往国外研究中常用的统计性特征也能用于识别中文反语，不过效果没有语言学特征显著。4）在平衡语料库测试出的泛化性能指标，包括精确率，召回率和 F1 值都比非平衡语料库的要高，这与以往其他研究得出的结论一致。本研究得出的结论有：1）可以根据有关反语的语言学理论设计出语言学特 v 征，且该特征能有效用于训练模型，实现中文反语自动识别。2）语言学特征的效果比统计性特征的效果要好。3）为了使模型在非平衡语料库上的泛化性能更好，还需要进一步调整支持向量机的参数。关键词：基于模式的方法，语言学特征，机器学习，反语识别 vi CONTENTS ACKNOWLEDGEMENTS ii ABSTRACT iii 摘要v CONTENTSvii LIST OF TABLES ix CHAPTER ONE GENERAL INTRODUCTION 1 1.1 Background 1 1.2 Motivation and Research Orientation 3 1.2.1 Research gaps3 1.2.2 Innovation and research orientation4 1.3 Research Questions 5 1.4 Organization of the remaining chapters 6 CHAPTER TWO LITERATURE REVIEW 7 2.1 Review of foreign literature 7 2.1.1 Classic theories on irony and sarcasm 7 2.1.2 Recent development on automated detection of irony and sarcasm 9 2.2 Review of domestic literature 12 2.3 Summary 14 CHAPTER THREE PROPOSED APPROACH 15 3.1 Overall Design 15 3.2 Experimental preparation 17 3.2.1 Data collection 17 3.2.2 Data pre-processing 20 3.2.3 Feature design and feature val