跨领域分类[精选].pptVIP

下载本文档

2
0
约3.56千字
约 29页
2017-01-20 发布于江苏
举报
版权申诉

跨领域分类[精选].ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

跨领域分类[精选]

Cross_Domain Sentiment classification via Spectral feature alignment 基于谱的特征队列的跨领域观点分类介绍问题提出一个例子谱的特征队列实验结论 1.介绍随着web2.0服务的发展，越来越多的关于用户观点或意见的数据在web上共享。观点分类旨在把观点分类到二级范畴内。(P or N) 由于许多用户没有明确地表明他们的二级观点，所以需要从文本中去推测。在文献中，有监督的学习在观点分类中被广泛应用，结果依赖于人工标签训练集。在某些情况，通过标记来建准确的分类器可能是费时的，原因是用户可能用领域特殊词来表达用户观点。 Table1列出了电子和视频游戏两个领域的观点句集。在电子领域，可能用精密的、灵敏的来表达正向的观点；用模糊的来表达反向观点。在视频游戏领域用入迷的、逼真的来表达正向观点；用无聊的来表示反向观点。由于领域特殊词的混配，一个领域的分类器不能直接应用于其他领域，用跨领域的分类算法很需要来减少领域独立性和人工标记代价。假设我们有源领域的标记词，为了训练一个到目标领域的分类器。本文提出SFA算法来找到对跨领域观点数据的一种新的表达，跨领域间的距离能够减少。SFA用一些领域独立词(即不受领域约束的词)作为桥梁来建造一个双向的图来表示领域特殊词和领域独立词共同出现的关系。基本思想是如果两个领域特殊词在图中与领域独立词联系多，那么他们有更高的可能性分配到一起，反之亦然。我们改写一个基于谱图论的聚簇算法，用双向图来联合分配领域特殊词和领域独立词到特征簇的集合中，然后我们用这些簇对所有的数据重新表达，基于新的表达来训练目标分类器。 2.问题提出 Sentiment：对于领域D，观点数据是包含领域中用户对领域实体的观点。 Labeled/Unlabeled Sentiment data:对于数据Xi，Yi表示Xi的极性，所有Xi表达是正观点（Yi=+1）。有{Xi，Yi}的被称作label data，如果没有分配极性则称作unlabeled data. Cross_domain sentiment classification 给定两个领域Dsrc（源领域）Dtar（目标领域）。假设在Dsrc中有一系列标记数据集，在Dtar中有一些无标记的数据集。跨领域分类的任务是预测Dtar中数据的极性。 (1)识别领域独立特征 (2)分配领域特殊特征第一个子任务旨在学习一个领域特征选择函数，用来选择不受领域约束的特征，经常出现的和在Dsrc和Dtar中表现相似的，这些不受领域约束的词被看作是桥梁使知识跨领域传递作为一种可能。第二个任务旨在学习一个函数分配两个领域特征到定义好的特征簇中z1、z2…zk.用Wdi表示不受领域约束特征词，用Wds表示领域特殊特征词。 3.一个例子首先，假设分类器是一个线性函数， w是分类器的权重，能通过训练集学习。在Table2中我们看到导致两个领域不同的原因是领域特殊词的出现。在领域E中，compact、sharp和blurry没有在V中出现，同样，在领域V中，hooked、realistic、boring在领域E中也没有出现。我们的目的是利用领域E中的标记向量训练一个权重向量W*，然后利用它来预测V领域中观点的极性。基于E领域中的三个句子，compact和sharp的权值应该为正，而blurry的权值应该为负。改写一种表示方式如Table3 Table3展示了一种理想的表示。 eg sharp_hooked表示包含sharp和hooked的簇。我们可以初始化不受领域约束词作为桥梁，在table1中，sharp、hooked、compact和realistic总和good和exciting一同出现。Table4显示了领域独立词和领域特殊词同时出现的矩阵。根据Table4就能构建Table3了。 4.领域特征队列 4.1 领域独立特征选择策略1：基于在两个领域出现的频率，假设要抽取l个特征词，我们选择在源领域和目标领域中出现超过K次的特征，K被设置为能找出l个特征的最大值。策略2：基于在源领域数据中相互独立的特征和标签。策略3：基于监督特征选择标准，用相互信息来衡量特征和领域间的独立性。如果一个特征有很高的相互信息，那么它是领域特殊的，否则是领域独立的。 4.2 双向图的构建基于以上策略能够选择出领域独立特征，能辨别出哪个特征是领域独立的哪个特征是领域特殊的。构建一个双向图