基于概念聚类Web数据挖掘搜索引擎设计与实现.docVIP

基于概念聚类Web数据挖掘搜索引擎设计与实现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于概念聚类Web数据挖掘搜索引擎设计与实现

基于概念聚类Web数据挖掘搜索引擎设计与实现   摘 要:针对Web数据挖掘的搜索过程,其准确度很大程度取决于用户输入的关键词的数量,以及搜索引擎对关键词的语义的解析与用户原意的吻合度,而搜索引擎对关键词的解析,包括基于链接的聚类方法和基于概念的聚类方法。本文克服基于链接的聚类方法的缺陷,采用基于概念聚类的方法,从二分图的概念和存储方法入手,设计和实现了个性化的Web数据挖掘搜索引擎,并验证了其优越性。   关键词:二分图;邻接矩阵;聚类;数据挖掘;搜索引擎   中图分类号:TP311.1 文献标识码:A   1 引言(Introduction)   众所周知,关键词数量越多,单个词越能清晰表达查询需求,搜索引擎就越能准确计算网页相关度,用户就越能准确得到所希望的查询结果。然而绝大多数用户在使用搜索引擎时,输入的关键词都少于三个,且很多情况下,关键词不能正确表达用户的查询需求,使得查询结果不尽如人意。本文采用概念聚类的方法,设计个性化搜索引擎,针对Web数据挖掘,能很大程度地提高搜索的准确率。   聚类就是将一个对象的集合通过某种算法分成几个类,分类后不同的类中的对象是不相似的,同一个类中的对象是相似的[1]。查询聚类是为了将相似需求的查询表达式聚为一类,从中选取关键词个数较多的作为这一类需求的表达,这样对查询表达式进行扩充,从而提高搜索的准确率[2]。   2 二分图及其存储(Bipartite graph and its storage)   设计中,联合考虑关键词和对应文本,即根据关键词所形成的词簇信息对文本进行聚类,聚类过程的数据结构定义如下:   定义1:设G=是一个无向图,若存在V1∪V2=V,且V1∩V2=Φ使得E(V1,V2)=V1×V2,即E中每条边的两个端点都是一个属于V1,另一个属于V2,且对V1中任意x和V2中任意y,有一条边e∈E,使e=(x,y),则称G为完全二分图。当|V1|=m,|V2|=n时,G记为Km,n。   对G采用实现存储,设eij为边[i,j]的权值,则记   (1)   为G的邻接矩阵。   3 聚类算法(Clustering algorithm)   使用中的很多搜索引擎在计算查询关键词与网页的相关度时,是根据网页内包含关键词的个数来定的,由于用户输入的关键词比较短,且一般不超过三个,加上有的关键词有歧义,而且由于网页内容的多样性,导致查询到的网页与用户的需求存在较大的差距。除了可以采用锚文本来对网页内容进行补充和描述的方法来提高查询准确率外,另一种有效的方法就是利用用户的点击率作为网页内容的补充了。从搜索引擎的日志中获取的用户点击数据可以在一定程度上反应关键词与页面之间联系,可以作为相关度计算的加权参数。   基于二分图的聚类算法有两种:基于超链接的聚类算法和基于概念的聚类算法。基于超链接的算法中,每当用户点击一个链接,就认为该链接和关键词是相关的,认为只要两个不同的关键词有相同的链接就将两个关键词聚类在一起,这样,由于关键词的语义多样性,很可能将语义不同的关键词进行聚类,加上Internet上很少有相同的链接,两个随机关键词被用户选择相同链接的概率仅为6.38*10-5,所以基于超链接的算法存在很大的缺陷[3]。   选择采用基于概念的聚类算法,对于设计一个高准确率的Web数据挖掘的个性化的搜索引擎系统,能达到更好的效果。构造概念聚类的二分图模型如下:   把所有的查询构造成顶点向量集合Q,关键词涉及的概念构造成顶点向量集合C,关键词与概念之间的关系构造成边集,即可得到概念聚类的二分图模型如图1所示。   例如当关键词为apple ipad、apple、apple iphone时,涉及的概念则包括ipad、fruit、iphone、product,构造的概念二分图如图2所示。   conceptual clustering   根据二分图,如果关键词涉及的概念相互重叠得越多,则关键词的相似度越高。设N(x)是节点x的邻节点的集合,N(y)是节点y的邻节点的集合,关键词的相似度按如下公式计算:   (2)   由式(2)可以看出,两个关键词涉及的概念集的交集越大,则查询的相似度越高。下面是构造二分图算法的伪代码:   4 系统模块设计(The system module design)   本系统的设计目的,是设计和实现一个为用户提供使用搜索引擎的平台,为用户提供搜索界面,并将用户输入的关键词提交给搜索引擎,再将搜索引擎的搜索结果反馈给用户。整个交互过程的数据比如查询关键词、搜索结果、用户点击的链接等数据都由该中间件收集起来并存储,为下一步的用户建模、查询聚类做准备[4]。   系统由四个主要模块组成:数据收集模块、数据库及管

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档