一种基于后缀树的中文网页层次聚类方法.pptVIP

下载本文档

0
0
约2.69千字
约 16页
2017-08-09 发布于重庆
举报
版权申诉

一种基于后缀树的中文网页层次聚类方法.ppt

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于后缀树的中文网页层次聚类方法.ppt

一种基于后缀树的中文网页层次聚类方法指导教师：赵政学生：史庆伟 1 引言目前的搜索引擎产生的搜索结果过于庞大和杂乱，用户难以从大量的结果集中快速找到自己感兴趣的信息。为了便于用户浏览，利用文档聚类算法将搜索结果自动聚类，形成一个类似文件夹的层次结构是一种好的方法。传统的文档聚类算法，所产生的聚类结果簇没有可读性，不适于直接应用于网页的聚类。有代表性的网页聚类方法包括：Sanderson和Croft提出的根据概念之间包含关系的聚类方法； Lawrie 提出的利用基于条件概率的语言模型聚类的方法； Hua-Jun Zeng提出的利用回归模型将聚类问题转换为分类问题的方法；这些方法都是建立在对英文网页聚类的基础上的，研究的对象是网页中的英文单词，而中文最大的特点是词与词之间没有分隔符，因此上述方法很难直接应用到中文网页的聚类上； O.Zamir和O.Etzioni采用后缀树（Suffix Tree）数据结构给出了一种网页快速聚类的方法，称为STC(Suffix Tree Clustering)。 2 STC算法 STC算法的主要思想是将每一个文档看成一个字符串，构建后缀树，后缀树中出现的相同的字符被认为是基本类，然后对基本类进行合并。后缀树的特点是： ?只有一个根节点 ?中间节点至少有两个子节点 ?每条边用子串标识，表示节点到根的路径 ?同一节点的边不能有相同的标识 ?每个字符串的子串都有相对应的后缀节点图1是三个字符串 “cat ate cheese”, “mouse ate cheese too” 和 “cat ate mouse too”形成的后缀树的例子。图中圆形表示节点，每个中间节点表示文档中出现的相同的词，其内容在边上标识，矩形中第一个数字表示子串属于那个文档，第二个数字表示字符串中的第几个子串。图1 “cat ate cheese”, “mouse ate cheese too” 和 “cat ate mouse too”三个字符串的后缀树 a至f是基本类，在合并基本类时，首先计算两个基本类的相似度，计算方法如下：给定两个基本类Bm和Bn，如果且则Bm和Bn的相似度为1，否则为0 其中表示同时含有基本类Bm和Bn的文档数， |Bm |表示含有基本类Bm的文档数， |Bn |表示含有基本类Bn的文档数。然后，将相似度为1的基本类连接在一起，完成基本类的合并。 3 STC算法的改进 STC算法中使用二进制的方法计算两个基本类之间的相似度，合并基本类的过程实际上是单链接(Single-Link)方法。STC算法中避免链式效应的代价是降低了精度。改进方法：使用雅克比系数(Jaccard coefficient)作为计算基本类相似度的方法，结合传统的数据聚类算法变色龙算法(chameleon)实现提高STC算法精度的目的。 2.1 基本类相似度计算 STC算法中基本类相似度的取值，只有0和1两个值，忽略了一些类的相关性，降低了精度。例如，假设有两个基本类Bm和Bn ，如果Bm包含Bn ，且， Bm和Bn明显有一定的相关性，而在STC算法中Bm和Bn的相似度为0。STCC算法采用雅克比系数计算基本类相似度，使其取值介于0和1之间，其计算方法如方程1所示。（1）其中，为同时含有Bm和Bn的文档数，为含有Bm或Bn其中之一的文档数。 2.2 基本类的合并基本类的合并是将STC算法中产生的基本类作为基本点，采用雅克比系数获得基本类的相似度作为基本点之间边的权重，使用变色龙算法实现基本类的层次聚类。变色龙算法是一种采用动态模型的聚类算法，只要定义了相似度函数，就可以应用于所有数据类型。变色龙算法的主要思想是首先通过一个图划分算法将数据对象聚类为大量相对较小的子聚类，然后用凝聚的层次聚类算法反复合并子类来找到真正的结果簇 3 实验实验数据选自百度搜索中最流行的五个关键词的搜索结果，即跑跑卡丁车、李宇春、qq、迅雷和mp3。网页预处理利用HTML DOM API将每个查询结果前500个网页片断的文本取出，然后去掉英文，数字等非汉语元素，一些网页中经常出现的词，如“下一页”，“点击”等，以及一些介词、连词和代词同时也被去掉。根据标点符号将每一个句子看成一个字符串，构建后缀树，也就是说，处理的最小单位是句子，而不是整篇文档，这样大大