数据挖掘翻译1-6页.doc

下载文档 降价啦

4
0
约1.06万字
约 12页
2017-04-21 发布于重庆
举报
版权申诉
保障服务

数据挖掘翻译1-6页.doc

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘翻译1-6页

里面的笑话：识别幽默的卡通图片摘要幽默是人类经历中一个不可或缺的方面。在创建计算幽默模型前景的鼓励下，我们研究了卡通幽默对于卡通图片语言的影响，我们的研究是基于大量卡通图片，而这些卡通图片是由《纽约客》主办的一个比赛所提供的。获得成千上万的相同的图片允许我们分析人们对相同的视觉刺激的反应宽度。我们首先描述我们如何获得不同卡通图片的幽默的判断。然后,我们再详述一个语料库的结构，在这个语料库中对于相同的卡通被认为更有趣的图片与较有趣的图片进行配对。我们分析这些卡通对并寻找两者的显著差异。接下来,我们建立一个自动分类器识别更有趣的标题。鉴于是两个图片和一个卡通,我们的分类器要在具有相同的笑话的图片中选择更有趣图片需花费的69%的时间而要花费64%的时间在其他图片对。最后,我们使用分类器来找到最好的图片然后来研究它的预测结果如何被用来显著降低漫画大赛的评委的负载（工作量）。分类和主题描述符 H.1.2(用户/机系统):人为因素;H.2.8 (数据库应用程序):数据挖掘;H.3.1[内容分析和索引):语言处理关键字幽默、卡通、卡通图片 1.介绍幽默在生活和人们的思想中起着非常重要的作用。已投入相当多的讨论和研究在幽默的性质和作用。多个假设已经提出,从关于人类认知中幽默的深层根源的模型到它在社会化中的角色地位，目前为止,大量的幽默调查已在心理学、哲学和语言学领域开展，相比较而言，关于幽默的计算研究仍处于起步阶段。创意作品,如笑话,传统意义上来说认为是处于计算机科学之外的。幽默被视为一种人类本能的特征。即使在科幻小说中，机器人和电脑几乎总是被描绘成不具备幽默特征的，无论他们多么精通语言或其他技能。我们相信聪明的幽默定义了一系列有趣的针对计算机科学的挑战。赋予机器识别和产生幽默的能力可以增强人机交互合作，通过改进对语义，意图和情感的理解。由于现在还不具备检测幽默的能力导致了算法交易系统:的失败：在愚人节新闻发布后，特斯拉汽车股票的上升且交易量激增。今天在这辆车里它带了什么去得到你? 放松点!它闻你就像闻其他车一样。它完全用腿奔跑。在交替季节只是不要尾随。只有推动一次。他甚至清理道路。空闲的腿在主道路上。舒服地吃六个。她跑得像我曾经做的梦。图1:提交的图片的名单，来自《纽约客》比赛的卡通例子。幽默也可以被用来提高注意力,记忆力和参与力,因此有许多有趣的应用在教育，卫生、通信和广告。在应用之外,追求信息理论幽默的模型可能会导致语言使用的新见解和更深层次的人类认知的基础。关于幽默的计算工作很大程度上集中于在有限领域的幽默的产生,如双关语和幽默的缩略词 [5, 29]。其他几个项目的关注幽默认知的相关工作(23、30、32)。在本文中,我们描述一个幽默认知领域的新方向。我们专注于幽默图片的识别工作，尤其是,来自《纽约客》杂志的卡通。《纽约客》举办了为期一周的比赛，在这场比赛中发布了一个图片所需要的卡通形象。读者被邀请提交他们自己关于图片的见解。裁判选出了最搞笑的图片的名单,然后编辑部的成员人员将其缩减到最后的三个。最终的三幅图片随后被发布，读者投票选出他们最喜欢的。图1显示了一个示例卡通。在这幅漫画里,一个汽车销售人员试图出售一个奇怪的,混合的生物，它似乎是部分汽车,部分动物。在漫画如图1下面列出了裁判选出的最终的名单。大型幽默的语料库的缺失阻止了数据驱动的幽默研究。《纽约客》卡通比赛语料库在这方面尤其有趣,因为它包含成千上万相同卡通形象的图片。这使得我们可以来分析人们对相同的视觉刺激的反应宽度，因此使得可以进行假设测试而在其他全集(如很难测试。笑话集合)的测试变得困难。我们的任务如下:我们的目标是预测在没有深度图片分析和理解文本的情况下图片的相关幽默，,通过利用人类标记场景和语言特征的自动分析。为了测试我们的想法,我们创建一个来自《纽约客》比赛的图片的数据集,以及人类的判断。我们识别和分析同一个笑话的不同的变化并找到影响感知幽默水平的因素。我们也通过通过图片说明自动识别一幅图片中的笑话，量化的强度不同的笑话的幽默强度和它们和卡通的关系。我们制定一个成对评价任务和给定两个图片和一个卡通构造一个分类器，来决定哪个图片更有趣。我们的分类器对于同一个笑话的不同图片测定达到69%准确性，对于比较任何两幅图片的准确率达到了64%。我们实现一个瑞士系统比赛排名所有图片。平均而言,所有裁判选出的的十大图片55.8%排名在前的，从而表明超出了当前的研究的细节,我们寻求更多大致框架以数据为中心的幽默研究。我们希望与之分享用一些关于探索数字内容的维度的幽默心理学研究的重要成果加入到数据挖掘的方向。我们相信,数据挖掘应该也将被应用到的心理现象和这些领域交叉的很多未知的机会。 2.图片描述的影响图2:汽车——集群大小类