面向大规模文档聚类及相关技术的研究-lm.pptVIP

面向大规模文档聚类及相关技术的研究-lm.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
论文进度安排,预期达到的目标 预期达到的目标: 对超过十万篇以上的大规模文档实现快速聚类技术,将聚类时间控制在2小时以内,并在聚类基础上实现增量聚类以实现对数据的实时处理,同时将聚类技术应用于搜索引擎,实现分层模糊的搜索聚类算法,构造每个类别的描述特征提高用户的检索效率,并在检索的基础上结合用户的限制信息进行检索反馈。 已发表论文 Ming Liu, Yuan-Chao Liu, Xiao-Long Wang. IGSOM: Incremental Clustering Based on Self-Organizing-Mapping. IIHSMP(EI), 2008. Ming Liu, Yuan-Chao Liu, Xiao-Long Wang. FSSOM: One Novel SOM Clustering Algorithm Based on Feature Selection. ICMLC(EI),2008. 刘铭, 刘远超, 王晓龙. 基于主题的文档聚类及类别描述信息获取. 哈工大学报,2008. 由公式可以看出如果文档的特征集合和神经元的特征集合的交集的小于一定值,设该值为文档的特征集合大小的1/3,则认为文档反映的信息和神经元代表的文档类所反映的信息是不相关的,相似度为0。如果交集大于1/3,则从两方面衡量文档和神经元的相似度,首先如果特征 在文档 的特征集合中权值很大并且其在神经元 的特征集合中权值也很大,说明特征 反映的信息在文档和神经元中均位于重要地位,表明文档 和神经元 代表的文档类所反映的信息大体相同,则文档与神经元的相似度应较大。其次如果文档和神经元的特征集合的交集很大,即文档的特征集合中的特征大多是神经元的特征集合中 的特征,说明文档描述的信息和神经元代表的文档类描述的信息大致相似,文档和神经元的相似度应较大。此公式即从这两方面进行计算,其中第一部分计算了特征在文档和神经元的重要程度;第二部分计算了文本的特征集合与神经元的特征集合的交集的大小。 * 算法VPSOM首先通过极大极小值初始化使得算法的初始神经元结构与算法收敛时的神经元结构相差不多,减少了迭代次数,同时由于压缩了神经元的特征向量大大减少了相似度计算以及权值调整时需要计算的维度从而减少了聚类时间,在文档数较少时,这种向量压缩的程度很小,因此VPSOM聚类时间比K-means稍长,但是随文档数的增多,向量压缩的效果逐渐显示出来,当文档数达到3万篇左右时,VPSOM将神经元特征向量压缩了近1/30,这大大降低了算法的聚类时间; * 神经元特征权值训练 权值训练步骤: [1] 从文档集合DOC中随机选取一个文档,设此文档为Dock; [2] 计算Dock的与神经元集合NEURON中各神经元的相似度,找到与Dock具有最大相似度的神经元,并记其为获胜神经元; [3] 按照公式(1)调整获胜神经元中特征的权值,同时调整位于获胜神经元邻域范围内的神经元的特征的权值; [4] 检测算法是否满足收敛条件。如满足,则停止;否则运行步骤[1][2][3][4]直至收敛; 权值调整函数: 公式(1)介绍了如何根据文档Dock的某个特征DocFeature调整神经元Neuronb的相应特征的权值: 1 文档与神经元相似度计算 文档与神经元相似度计算: 1) 在传统自组织映射聚类算法中,特征的权值对应于此特征神经元代表的文档类中的权值的平均分布。因此可以采用欧式距离或余弦相似度等方法,通过计算文档中每个特征的权值和此特征在神经元中的权值的差距情况计算文档与神经元的相似度。而本算法以特征的权值来反映该特征作为映射到神经元的文档类所描述信息的代表的能力,因此无法使用欧式距离或余弦相似度等相似度计算方法; 2) 由于我们压缩了神经元的特征集合,因此文档中的每个特征并不一定在神经元的特征集合中出现,而欧式距离或余弦相似度需要文档中的每个特征均出现于神经元的特征集合中; 设文档 的特征集合和神经元 的特征集合的交集为 大小记为 。假设该交集中的某个特征 对应于文档 的特征集合中的第z个特征,对应于神经元 的特征集合的第y个特征,则文档 与神经元 的相似度函数如下: 前期的理论研究 与试验论证工作的结果 采用Yahoo网站的2007年新闻作为算法的测试语料,该新闻语料包含了体育、医疗、社会、财经、教育等多个种类,是一种平衡语料,包含大约十万篇文档共298M。将VPSOM与K-means、层次聚类、GSOM、GHSOM 对于十万篇文档的聚类时间做了对比; 前期的理论

文档评论(0)

339910001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档