2.第2章文本检索教程讲解.pptVIP

下载本文档

1
0
约1.62万字
约 87页
2016-04-26 发布于湖北
举报
版权申诉

2.第2章文本检索教程讲解.ppt

1、本文档共87页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2.7 文本聚类——基于亲和性消息的聚类 (4/3) 6)对每个元素i 计算k=argmax(r(i,k’)+a(i,k’)) ，若k=i，则k自身为一个范例，否则k为i的范例。如果满足终止条件则结束；否则转4) 继续迭代 * 2.7 文本聚类——生成式聚类每个文档类别被看作对应一个主题的文档集合将文档的产生看作随机过程，每个主题类别有一个关于文档的概率分布模型一个文档应该归属哪个类，要看哪个类别的模型产生文档的概率最大关键是各个类别概率模型的估计和参数估计 * 2.7 文本聚类——生成式聚类(二值概率模型) 文档是二值元素的向量，每个元素对应词表W中的一个词t 假设词的出现是相互独立的事件，并只考虑词是否出现而不管出现的次数，则可得在概率参数集合Φ条件下文档d 生成的二值概率模型由于词表中的词数远远多于文档中的词数，所以φt的平均值低于0.5，使得该模型有利于短文本的生成，同时降低了实际出现可能性大的文档的产生概率 * 2.7 文本聚类——生成式聚类(多值概率模型) 考虑词在文档中的出现次数假设文档的总长度L 符合一个概率分布P(l) 文档的产生过程是一个掷|W| 个面的骰子的过程，每个面对应词表中的一个词产生长度为ld的文档的过程就等于投掷骰子ld次假设第t 面出现了n (d,t)次，则文档的生成概率 * 2.7 文本聚类——蚁群聚类在诸多聚类算法中，蚁群算法是一种较新且较高效率的算法蚁群算法在数据挖掘聚类中的应用所采用的生物原型为蚁群的蚁穴清理行为和蚁群觅食觅食行为在蚁群蚁穴清理行为中，蚁群会将蚁穴中分布分散的蚂蚁尸体堆积成相对集中的几个大堆。在聚类分析中，将这些分散分布的蚂蚁尸体视为待分析的数据集合，而最终堆积而成的大堆则对应于最终的聚类结果在基于蚁群觅食行为的聚类分析中，将数据视为具有不同属性的蚂蚁，而将聚类结果视为食物源，所不同的是，此时认为存在多个食物源。这样各个蚂蚁通过一定的概率实现移动，并聚集在不同的食物源而实现聚类 * 2.7 文本聚类——流聚类（1/4）随着诸如实时监控系统、网络入侵检测和web上用户点击流等动态的应用环境源源不断地产生海量的、时序的、快速变化的和潜在无限的数据流 (Data Streaming, 简称Streaming)，对数据流挖掘的研究变得重要而富有意义数据流挖掘算法的主要特点：数据流中的数据是海量的，所以不可能在内存及硬盘上存储整个流数据集。甚至问题不仅在于有太多的数据，而在于需要记录的属性值的定义域（全域）都相当大对数据流的挖掘应该是一个单遍扫描的过程(one-pass scan) 数据流是快速变化的，所以不可能看到数据流的中的每一个数据元素（data point），我们只能通过分析部分数据元素来做出决策数据流是时序的，所以对流中数据元素的访问只能是单次线性的（linear scan）。即数据元素只能按其流入顺序依次读取一次，随机访问是不现实 * 2.7 文本聚类——流聚类（2/4）数据流挖掘算法的主要特点：大多数应用要求很快的响应时间，并且挖掘应该是一个连续、在线的过程，而不是偶然进行一次数据流往往天生就是高维的（High-Dimensional） * 2.7 文本聚类——流聚类（3/4）一个好的数据流挖掘算法应具有的特性：对已发现的簇提供一个简洁的表示方法（representation ）对新数据元素的处理应该是个增量式的方式（incremental processing），并且应该它是快速的有清晰而快速地孤立点检测（outlier detection）的能力 * 2.8 文本分类分类是最基本最重要的智能活动之一模式识别系统的主要任务就是构造性能优良的分类器分类是靠有监督的学习实现的，即通过有类别标注的样本对分类器进行训练在Web搜索中的应用对网页及文档分类是核心问题 Spam(垃圾邮件)检测情感分类在线广告 * 2.8 文本分类——k-NN分类器算法思想：k-NN(k nearest neighbor)分类器利用k 个与未知样本最接近的已知样本的类别来投票决定未知样本的类别算法的两个基本步骤：寻找未知样本的k 个最