基于语义相似度的词汇语义激励倾向研究.docxVIP

下载本文档

3
0
约6.45千字
约 6页
2023-09-07 发布于湖北
举报
版权申诉

基于语义相似度的词汇语义激励倾向研究.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于语义相似度的词汇语义激励倾向研究 1 管理领域的研究考虑到庞大的网络数据，如何通过有效手段获取所需的信息是计算机研究的热点。语义倾向性研究正是在这一背景下应运而生的。人们根据各自所关注的问题在Web上进行搜索,通过阅读大量相关文献、介绍、评论,逐渐形成自己的观点。由于网络资源过于庞大,搜集-阅读-评价的工作变得十分繁琐和耗时。因此迫切地需要一套能够自动搜索、评价、归纳的系统替人们完成这一任务。困难是显而易见的,计算机虽然具有极快的处理速度,但如何使其能够自动完成对文本的语义倾向的推断,仍然是个需要研究的课题。所谓词汇的语义倾向,即对于词汇的褒贬程度计算出一个度量值。为了便于统计和比较,目前比较常用的做法是将度量值规定为位于±1之间的实数。当度量值高于某阈值时,判别为褒义倾向;反之,则判为贬义倾向。此外,我们可以通过对篇章中词汇的语义倾向值求平均的方式,获得篇章的语义倾向。因此,对词汇的语义倾向计算是此类研究中的关键工作。语义倾向研究具有极大的实用价值。在商业领域中,能够为企业进行市场分析、市场调查、顾客反馈提供更多有价值的信息;在管理领域,能够帮助领导者更快地了解群众对各类政策措施的反馈意见。此外,语义倾向判别也为文本过滤、自动文摘的研究工作提供了新的思路和新的手段。我们可以对语义倾向度量值设定一个合适的阈值,对于倾向值低于或高于阈值,也就是态度倾向过于偏激的文章进行过滤操作,或者可将倾向值赋予一定的权值,作为文本过滤中需要考虑的一个因素。该方法如果应用在网络新闻组的自动过滤中,有利于维护讨论秩序,缓和讨论气氛。而自动文摘的生成,可将具有强烈褒贬倾向的语句作为关键句摘出,从而更好地保留原作者的观点和意见。单词的语义倾向判别是篇章语义倾向研究的基础。早在1997年,Hatzivassiloglou和McKeown就尝试使用监督学习的方法对词语进行语义倾向判别,通过对训练语料的学习进行语义倾向判别,准确率约82%,在加入篇章中形容词之间的接续信息后,准确率提升到90%左右。在2003年,Turney在其论文中提出了利用统计信息对单词进行语义倾向判断的新方法。其准确率在包含形容词、副词、名词、动词的完整测试集上达到82.8%。文本的语义倾向判别也可被看作一个褒贬的分类问题,因此,文本分类中的方法同样被应用到了语义倾向判别研究中。2002年,Turney在其论文中介绍了基于语义倾向的非监督文本分类方法。根据褒贬含义的倾向信息对评论性文章进行分类,其分类结果更符合人们对评论性文章分类的实际需求。在Epinions上的410篇评论性文章中,利用Turney的算法对褒贬倾向进行分类,正确率达到74%。同年,Pang 等人使用标准的机器学习技术做了同样文本分类工作。比较了简单贝叶斯、最大熵、SVM方法在语义倾向文本文类上的效果。SVM的分类准确率最高达到约80%,为几种方法中分类效果最好的。之后,Pang提出了对语义倾向分类结果进行后续处理,进一步将分类结果按照语义倾向强度进行细分的方法,并通过一系列的实验证明了其方法的可行性。近年来,陆续出现了一些利用语义倾向分析技术开发的商业智能系统,例如,NEC公司的Kusha等人所开发的ReviewSeer,通过对评论性文章的语义倾向分析,为商品的受欢迎程度进行打分评价,该评价结果是极具价值的商业信息。又如,Bing Liu 在其论文中介绍了商用产品信息反馈系统Opinion Observer,利用网络上丰富的顾客评论资源,进行商品的市场反馈分析,为生产商和消费者提供了直观的针对商品各个特性的网络评价报告。本文的研究侧重于词汇的语义倾向性判别。利用HowNet提供的语义相似度和语义相关场计算功能,尝试了一些词语语义倾向判别的方法。主要做了以下工作:通过计算词语间的相似程度,对词语的褒贬倾向按照一定的计算法则进行赋值。根据所得的语义倾向度量值判别其褒贬倾向。本文其他部分的组织如下: 第二节对HowNet(《知网》)进行简单介绍,并且提出了两种基于HowNet的词汇倾向性计算方法。第三节对使用本文算法所进行的实验进行详细描述,对实验的结果进行分析。第四节对于本文所做的工作做了一个总结,并提出了未来的研究方向。 2 单词意义的表达 2.1 语义相似度计算知网(英文名称为HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。对于汉语词汇,知网中的描述基于“义原” 这一基本概念。义原,可以被认为是汉语中最基本的、不易于再分隔的最小语义单位。由于汉语中“词”的含义非常复杂,往往一个词在不同的语境中会表达不同的语义。因此,在HowNet中,把汉语中的词理解为若干义项的集合。《知网》的语义字典中,每条