- 1、本文档共87页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2.7 文本聚类——基于亲和性消息的聚类 (4/3) 6)对每个元素i 计算k=argmax(r(i,k’)+a(i,k’)) ,若k=i,则k自身为一个范例,否则k为i的范例。如果满足终止条件则结束;否则转4) 继续迭代 * 2.7 文本聚类——生成式聚类 每个文档类别被看作对应一个主题的文档集合 将文档的产生看作随机过程,每个主题类别有一个关于文档的概率分布模型 一个文档应该归属哪个类,要看哪个类别的模型产生文档的概率最大 关键是各个类别概率模型的估计和参数估计 * 2.7 文本聚类——生成式聚类(二值概率模型) 文档是二值元素的向量,每个元素对应词表W中的一个词t 假设词的出现是相互独立的事件,并只考虑词是否出现而不管出现的次数,则可得在概率参数集合Φ条件下文档d 生成的二值概率模型 由于词表中的词数远远多于文档中的词数,所以φt的平均值低于0.5,使得该模型有利于短文本的生成,同时降低了实际出现可能性大的文档的产生概率 * 2.7 文本聚类——生成式聚类(多值概率模型) 考虑词在文档中的出现次数 假设文档的总长度L 符合一个概率分布P(l) 文档的产生过程是一个掷|W| 个面的骰子的过程,每个面对应词表中的一个词 产生长度为ld的文档的过程就等于投掷骰子ld次 假设第t 面出现了n (d,t)次,则文档的生成概率 * 2.7 文本聚类——蚁群聚类 在诸多聚类算法中,蚁群算法是一种较新且较高效率的算法 蚁群算法在数据挖掘聚类中的应用所采用的生物原型为蚁群的蚁穴清理行为和蚁群觅食觅食行为 在蚁群蚁穴清理行为中,蚁群会将蚁穴中分布分散的蚂蚁尸体堆积成相对集中的几个大堆。在聚类分析中,将这些分散分布的蚂蚁尸体视为待分析的数据集合,而最终堆积而成的大堆则对应于最终的聚类结果 在基于蚁群觅食行为的聚类分析中,将数据视为具有不同属性的蚂蚁,而将聚类结果视为食物源,所不同的是,此时认为存在多个食物源。这样各个蚂蚁通过一定的概率实现移动,并聚集在不同的食物源而实现聚类 * 2.7 文本聚类——流聚类 (1/4) 随着诸如实时监控系统、网络入侵检测和web上用户点击流等动态的应用环境源源不断地产生海量的、时序的、快速变化的和潜在无限的数据流 (Data Streaming, 简称Streaming),对数据流挖掘的研究变得重要而富有意义 数据流挖掘算法的主要特点: 数据流中的数据是海量的,所以不可能在内存及硬盘上存储整个流数据集。甚至问题不仅在于有太多的数据,而在于需要记录的属性值的定义域(全域)都相当大 对数据流的挖掘应该是一个单遍扫描的过程(one-pass scan) 数据流是快速变化的,所以不可能看到数据流的中的每一个数据元素(data point),我们只能通过分析部分数据元素来做出决策 数据流是时序的,所以对流中数据元素的访问只能是单次线性的(linear scan)。即数据元素只能按其流入顺序依次读取一次,随机访问是不现实 * 2.7 文本聚类——流聚类 (2/4) 数据流挖掘算法的主要特点: 大多数应用要求很快的响应时间,并且挖掘应该是一个连续、在线的过程,而不是偶然进行一次 数据流往往天生就是高维的(High-Dimensional) * 2.7 文本聚类——流聚类 (3/4) 一个好的数据流挖掘算法应具有的特性: 对已发现的簇提供一个简洁的表示方法(representation ) 对新数据元素的处理应该是个增量式的方式(incremental processing),并且应该它是快速的 有清晰而快速地孤立点检测(outlier detection)的能力 * 2.8 文本分类 分类是最基本最重要的智能活动之一 模式识别系统的主要任务就是构造性能优良的分类器 分类是靠有监督的学习实现的,即通过有类别标注的样本对分类器进行训练 在Web搜索中的应用 对网页及文档分类是核心问题 Spam(垃圾邮件)检测 情感分类 在线广告 * 2.8 文本分类——k-NN分类器 算法思想:k-NN(k nearest neighbor)分类器利用k 个与未知样本最接近的已知样本的类别来投票决定未知样本的类别 算法的两个基本步骤: 寻找未知样本的k 个最
您可能关注的文档
最近下载
- 如何撰写发明专利ppt课件--如何撰写发明专利.pptx VIP
- 双螺杆泵产品样本.pdf VIP
- 中考数学计算题练习100题附答案(中考真题).docx VIP
- 《材料成型原理》教学大纲(金属凝固原理及塑性成形原理部分,基础知识点概括,考研必备).pdf VIP
- FANUC发那科 3.12机器人基础功能-全备份以及镜像备份操作.pdf VIP
- 2025年四川发展控股有限责任公司校园招聘笔试备考题库带答案详解.docx
- 创伤急救知识试题(含答案).docx
- 《现代物流学》(第四版)电子课件 第10章 现代物流学(第4版).pptx VIP
- 智慧农场建设方案.docx VIP
- FANUC发那科 4.15机器人通讯支持-Profibus通讯设置(机器人做从站).pdf VIP
文档评论(0)