基于粒子群优化算法Web挖掘技术研究.docVIP

基于粒子群优化算法Web挖掘技术研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于粒子群优化算法Web挖掘技术研究

基于粒子群优化算法Web挖掘技术研究   摘要:Web是目前最大的信息系统。Web挖掘就从Web文档和Web活动中发现和抽取用户感兴趣的、潜在的、有用模式和隐藏的知识。本文介绍了有关web挖掘的任务和存在问题,同时介绍了PSO算法以及各种改进措施。   关键词:Web;挖掘;PSO      随着Internet的迅速发展,World Wide Web已深入到社会生活的方方面面。Web可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特性。人们使用Web,一般有如下需求[1]:   获取相关信息或服务;   从Web信息中发现新的知识;   提供个性化服务:不同的用户对信息、服务有不同的要求。   为了解决上述问题,人们迫切需要能自动地从Web上发现、抽取和过虑信息的工具,由此产生了Web挖掘。   Web挖掘就是从Web文档和Web活动中发现和抽取潜在的、用户感兴趣的有用模式和隐藏的知识[2]。   1.Web挖掘   WEB挖掘可以认为包括以下四个子任务[3,4]:资源发现、信息选择和预处理、概括和泛化、分析。   资源发现是一个从Web上的联机资源中检索数据的过程。信息选择和预处理是一个信息转变的过程。它可以是除去停用词,词干处理,发现训练集中的短语,以及得到关系或逻辑表示等。概括过程是应用数据采掘技术获得知识。最后的分析是对采掘结果的验证和解释,在此过程中应该发挥人的作用。   Web文本信息的特征获取是指自动地从Web文本信息中抽取出代表其内容主题的特征词条形成特征矢量来表示Web文本。它影响到下一步Web文本分类的质量。文本挖掘问题的一个主要难点是特征矢量的维数过高,对于大多数学习算法来说都难以承受。目前已有多种方法被用于特征抽取,比如文档频次门限方法、信息增益方法、χ2分布方法、互信息熵方法、基于奇异值分解的潜在语义索引方法(LSI)以及基于遗传算法的特征提取算法等。   聚类技术是对符合某一访问规律特征的用户进行用户特征挖掘。Web使用挖掘中存在两种类型的聚类:使用聚类(用户聚类)和页面聚类。根据聚类的结果聚类方法可分为层次聚类与非层次聚类。在不同的方法中,人们研究了获得较高的计算效率的问题。  ???在Web使用挖掘过程中,对用户、Web页面等Web对象进行聚类时,存在明显的模糊性,模糊聚类也因此成为目前Web聚类分析研究的主流。   2.Web挖掘中存在的问题   Web数据挖掘[5]与传统数据挖掘不同,Web页面的结构比一般文本文件复杂很多,它可以支持多种媒体的表达。人们最初是希望通过Web来实现世界各种信息的互通,在这个平台上自然希望任何的信息都可以表达了。因此也造成了互联网数据的复杂性这个特点。而在互联网上文档一般是分布的,异构的,无结构或者半结构的。许多新技术的产生为解决这个难题提供了一条可行的道路,如XML技术。还有,互联网上的数据动态性极强,页面本身的内容和相关的链接经常更新。而互联网面对的客户也各不相同,这些都造成了用户行为模式分析的困难度。   现行Web挖掘方法很多,解决Web信息应用部分问题,但存在一定的不足,如:由于用户查询固有的主观性、不精确性和不确定性,大多数Web检索系统仅用一个简单的检索模型,侧重于检索效率,忽视了检索的准确性。不能进行软决策,现有查询是基于“硬抛弃”法,而且取决于查询与检索出文档的相关性,但相关性只是文档的部分属性,不是很分明的界限。页面分级还不全面,还没有考虑各种参数的权重,如点击位置、相邻性和频率等,分级还很少考虑用户的特点。   为处理Web数据特征,克服目前现有的Web挖掘方法的局限,软计算方法是一个很好的方法。软计算是一组协同的方法,它提供一种处理现实中模糊状态信息灵活处理能力。它们的目标是通过探索不精确、不确定、近似推理和局部正确的最大可能限度,达到易理解的、健壮的和低代价的解决方案,类似人的决策过程。软计算技术包括模糊逻辑(fuzzy logic,FL)、粗糙集(rough set,RS)、人工神经网络(artificial neural network,ANN)和遗传算法(genetic algorithm,GA)[ 5-8]。   现有的Web文档特征抽取算法文章证明这些特征抽取方法都有一些局限。传统的聚类分析把每个待辨识的对象严格地划分到某个类中,各个类别的界限是分明的。然而现实世界存在着大量的界限划分不严格的聚类问题。即问题具有一定的模糊性,如在区分“优”和“良”等级时,就需要模糊划分。在Web使用挖掘过程中,对用户、Web页面等Web对象进行聚类时,存在明显的模糊性,模糊聚类也因此逐渐成为Web聚类分析研究的主流。   3.粒子群优化算法   粒子群优化(Particle S

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档