CIKM大会总结报告.pptVIP

下载本文档

4
0
约4.18千字
约 50页
2019-02-05 发布于湖北
举报
版权申诉

CIKM大会总结报告.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

CIKM大会总结报告报告人：谭松波 2005-11-17 内容概要 1. 语气分类； 2. 多标签分类； 3. 基于证据融合的文本分类； 4. 基于MailRank的邮件过滤； 5. 基于时间加权的协同过滤； 6. 最小化文档集检索； 7. 基于隐含用户建模的个性化搜索. 语气分类(1) 语气分类(sentiment classification)就是对文本的语气进行分类。比如按照肯定与否定进行分类。它在数据挖掘、市场调研与客户关系管理等方面有着广泛的应用。语气分类(2) 目前语气分类可以分为两种。第一种就是基于词袋的分类。这种方法根据词语的出现频率来训练出一个肯定与否定分类器。第二种方法(语义倾向)把词区分成两类，即“好”或“坏”。然后计算整篇文档的“好”或“坏”得分来对文档分类。第二种方法应用得较为普遍。语气分类(3) 然而，第二种方法遇到了许多困难。首先，它需要在定义完整的语气分类体系上对态度表达进行详细的语义分析。其二，态度表达的原子单位不是所谓的词语，而是一些关系紧密的表达一个语气的词语集合。作者把这个“词语集合”定义为“评价团”。语气分类(4) 作者把评价团划分为四个属性：态度、语气、强度与极性。态度又可以细分为影响、评判与判断。影响指个人情感状态(e.g., ‘happy’, ‘angry’)，是最外在的主官评价形式。语气就是指肯定与否定。强度主要从force与focus两方面来描述。例如，‘very’ (increased force), ‘slightly’ (decreased force), ‘truly’ (sharpened focus), ‘sort of’ (softened focus)。极性表示一个描述词的使用极性。如happy(‘unmarked’),not happy(‘marked’)。语气分类(5) 语气分类(6) 语气分类(7) 论文特点：概念新颖；论述详尽。不足：实验不够充分。难以实用。多标签分类(1) 就是给一个样本分配一个或多个类别。目前有两种通常的做法。第一种做法就是对每个类别训练一个二分分类器，分类时把判别为“是”的类别都判为当前样本的类别。第二种做法就是对每个类别训练一个预测实数积分的决策函数。分类时把积分大于阈值的类别都判为当前样本的类别。多标签分类(2) 然而，作者认为这两种方法都没有考虑类别之间的依赖性。事实上，类别之间存在很强的共现模式与依赖性。比如说，如果认为带有“sodium”的研究论文应该分到“Heart Disease”类，那么就也应该把它归入到“Hypertension”类中。所以，作者认为，要是一种分类方法能够抓住这种共现模式，那么这种方法将表现出更好的分类性能。多标签分类(3) 作者提出了两个模型来捕捉这种共现模式。 Collective Multi-Label classifier (CML)考虑了类类之间的关系； Collective Multi-Label with Features classifier (CMLF) 考虑了特征、类与类三者之间的影响。举例来说，假如一篇文档来自于“Rice”与“Soybean”，如果它含有词“Cooking”的话，那么，它被正确分类的可能性要大于它被误分入其他类(Alternative Fuels)的可能性。多标签分类(4) 多标签分类(5) 论文特点：提出了类类共现的概念；实验效果较好。不足：模型比较复杂；计算量大。因为它需要对所有的多标签集合计算一个概率分布。多标签集合的个数随着类别数呈指数增长。基于证据融合的文本分类(1) 作者认为单单基于内容进行分类忽略一些重要信息，比如引用信息等等。作者提出了一个“分类证据” 的概念。把各种对分类有益的各种信息，如引用、标题、摘要、正文等等都看成分类证据。基于证据融合的文本分类(2) 为了有效地融合各个分类证据。人们通常采用手工选择与投票方法。但是，手工选择需要耗费大量时间；投票方法在某些环境中并不适用。于是，作者提出采用GP来融合分类证据。基于证据融合的文本分类(3) 遗传算法(genetic algorithms,GA) 1. 个体长度固定； 2. 采用简单的二元串(111000); 遗传规划(genetic programming,GP) 1. 个体长度不固定； 2. 个体使用的结构比较复杂。如树，链表等基于证据融合的文本分类(4) 作者从内容与引用两个角度定义了14种相似度计算函数。基于证据融合的文本分类(5) 适应度函数：基于证据融合的文本分类(6) 算法流程为： 1. 对每个类别，随机生成一个初始种群。每个个体表示一个相似度函数。 2. 执行如下遗传操作Ngen步：