比较句与比较关系识别研究及其应用-计算机软件与理论专业论文.docxVIP

下载本文档

0
0
约6.29万字
约 65页
2018-09-19 发布于上海
举报
版权申诉

比较句与比较关系识别研究及其应用-计算机软件与理论专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

比较句与比较关系识别研究及其应用-计算机软件与理论专业论文

重庆大学硕士学位论文中重庆大学硕士学位论文中文摘要 I I 摘要众所周知，比较是人类认识世界的一种重要手段和有说服力的表达方式，是世界各种语言的最重要的组成部分。随着 Web2.0 的深入发展，Internet 技术更加注重与普通用户的交互，用户不仅是网站内容的读者，也是网站内容的作者。尤其最近几年，微博、播客、日志、维基、论坛等新型网络元素异军突起，使得网络信息更加个性化和多元化。这些信息中不乏是对各种新事物、新理论、新技术、新产品、新观点、新艺术的评论比较的文本信息。利用自然语言处理技术，高效地从这些信息中识别比较句和比较关系已成为近年来一个新颖的研究课题。论文在已有研究的基础上，对比较句与比较关系的自动识别做了系统深入的研究。主要包括以下几个方面的工作： ① 提出熵值平衡算法(EBA)用来对语料的类别偏斜问题进行平衡处理。该算法基于熵是度量一个系统有序程度的原理，通过计算每个词汇的熵值，选择满足阈值的词汇构造平衡关键字集合，再用这个集合过滤每个类别的语料文本数据，使得大类的样本规模与小类的样本规模接近于 1:1。该算法在对语料库中比较句与非比较句比例为 796:8010 的平衡结果为 701:1226，达到了平衡的预期目标。 ② 提出基于信息熵的比较句识别方法。该方法提取类间分布不均匀而类内分布均匀的词汇作为比较句的统计特征；利用 Apriori 算法挖掘满足最小支持度 minsup 和最小置信度 minconf 的词性序列模式作为比较句的序列特征。然后使用信息增益(IG)对得到的特征进行特征选择。最后使用 SVM 和 NB 分类器对语料的特征向量进行分类。实验表明该方法的 F1 值为 81%，能有效地识别比较句。 ③ 提出基于语义角色句法分析树的比较关系识别方法。该方法将句法分析树和语义角色标注相融合，构造一种新的语义角色分析树，并设计了子树间的匹配相似度计算函数，计算最大可能的抽取结果，旨在提取比较关系中比较主体，比较客体，比较内容和比较结果。实验结果显示，对只含有一个关系的比较关系抽取效果较好，对含有多个关系的比较关系抽取，效果有待进一步提高。 ④ 实现了产品评论挖掘中比较句与比较关系识别的应用。在论文提出的比较句与比较关系识别理论框架内，提出了产品评论挖掘的框架和流程，实现了在产品评论挖掘中的比较句与比较关系识别的应用，从而验证了论文所提出的识别方案的可行性和正确性。关键词：比较句识别，比较关系抽取，类别不平衡，语义角色分析树，自然语言处理重庆大学硕士学位论文英重庆大学硕士学位论文英文摘要 II II ABSTRACT As is well-known to all, Comparison is an important way of understanding human language. With the further development of Web 2.0, Internet technology pays more attention to user’s interaction. Users are not only the reader, but also the writer of Web content. Especially in recent years, blogs, podcast, logs, wikis, social networks and forums emerge everywhere as the new network elements which made the Web information more individual and diversification. There is much text information which includes new innovation, theory, technique, idea, arts and so on. Because of these facts, it is an issue of new international academic research by using natural language processing technology to identify the comparative sentences and relations. Based on the existing research, on this dissertation we did some part of research towards the main technologies which used in identification of