- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于粒子群优化算法Web挖掘技术研究
基于粒子群优化算法Web挖掘技术研究
摘要:Web是目前最大的信息系统。Web挖掘就从Web文档和Web活动中发现和抽取用户感兴趣的、潜在的、有用模式和隐藏的知识。本文介绍了有关web挖掘的任务和存在问题,同时介绍了PSO算法以及各种改进措施。
关键词:Web;挖掘;PSO
随着Internet的迅速发展,World Wide Web已深入到社会生活的方方面面。Web可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特性。人们使用Web,一般有如下需求[1]:
获取相关信息或服务;
从Web信息中发现新的知识;
提供个性化服务:不同的用户对信息、服务有不同的要求。
为了解决上述问题,人们迫切需要能自动地从Web上发现、抽取和过虑信息的工具,由此产生了Web挖掘。
Web挖掘就是从Web文档和Web活动中发现和抽取潜在的、用户感兴趣的有用模式和隐藏的知识[2]。
1.Web挖掘
WEB挖掘可以认为包括以下四个子任务[3,4]:资源发现、信息选择和预处理、概括和泛化、分析。
资源发现是一个从Web上的联机资源中检索数据的过程。信息选择和预处理是一个信息转变的过程。它可以是除去停用词,词干处理,发现训练集中的短语,以及得到关系或逻辑表示等。概括过程是应用数据采掘技术获得知识。最后的分析是对采掘结果的验证和解释,在此过程中应该发挥人的作用。
Web文本信息的特征获取是指自动地从Web文本信息中抽取出代表其内容主题的特征词条形成特征矢量来表示Web文本。它影响到下一步Web文本分类的质量。文本挖掘问题的一个主要难点是特征矢量的维数过高,对于大多数学习算法来说都难以承受。目前已有多种方法被用于特征抽取,比如文档频次门限方法、信息增益方法、χ2分布方法、互信息熵方法、基于奇异值分解的潜在语义索引方法(LSI)以及基于遗传算法的特征提取算法等。
聚类技术是对符合某一访问规律特征的用户进行用户特征挖掘。Web使用挖掘中存在两种类型的聚类:使用聚类(用户聚类)和页面聚类。根据聚类的结果聚类方法可分为层次聚类与非层次聚类。在不同的方法中,人们研究了获得较高的计算效率的问题。
???在Web使用挖掘过程中,对用户、Web页面等Web对象进行聚类时,存在明显的模糊性,模糊聚类也因此成为目前Web聚类分析研究的主流。
2.Web挖掘中存在的问题
Web数据挖掘[5]与传统数据挖掘不同,Web页面的结构比一般文本文件复杂很多,它可以支持多种媒体的表达。人们最初是希望通过Web来实现世界各种信息的互通,在这个平台上自然希望任何的信息都可以表达了。因此也造成了互联网数据的复杂性这个特点。而在互联网上文档一般是分布的,异构的,无结构或者半结构的。许多新技术的产生为解决这个难题提供了一条可行的道路,如XML技术。还有,互联网上的数据动态性极强,页面本身的内容和相关的链接经常更新。而互联网面对的客户也各不相同,这些都造成了用户行为模式分析的困难度。
现行Web挖掘方法很多,解决Web信息应用部分问题,但存在一定的不足,如:由于用户查询固有的主观性、不精确性和不确定性,大多数Web检索系统仅用一个简单的检索模型,侧重于检索效率,忽视了检索的准确性。不能进行软决策,现有查询是基于“硬抛弃”法,而且取决于查询与检索出文档的相关性,但相关性只是文档的部分属性,不是很分明的界限。页面分级还不全面,还没有考虑各种参数的权重,如点击位置、相邻性和频率等,分级还很少考虑用户的特点。
为处理Web数据特征,克服目前现有的Web挖掘方法的局限,软计算方法是一个很好的方法。软计算是一组协同的方法,它提供一种处理现实中模糊状态信息灵活处理能力。它们的目标是通过探索不精确、不确定、近似推理和局部正确的最大可能限度,达到易理解的、健壮的和低代价的解决方案,类似人的决策过程。软计算技术包括模糊逻辑(fuzzy logic,FL)、粗糙集(rough set,RS)、人工神经网络(artificial neural network,ANN)和遗传算法(genetic algorithm,GA)[ 5-8]。
现有的Web文档特征抽取算法文章证明这些特征抽取方法都有一些局限。传统的聚类分析把每个待辨识的对象严格地划分到某个类中,各个类别的界限是分明的。然而现实世界存在着大量的界限划分不严格的聚类问题。即问题具有一定的模糊性,如在区分“优”和“良”等级时,就需要模糊划分。在Web使用挖掘过程中,对用户、Web页面等Web对象进行聚类时,存在明显的模糊性,模糊聚类也因此逐渐成为Web聚类分析研究的主流。
3.粒子群优化算法
粒子群优化(Particle S
您可能关注的文档
最近下载
- 天津大学测控电路试卷.doc VIP
- 西 藏图考 清 黄沛翘(国立中央图书馆典藏).pdf
- 商标使用许可备案提前终止协议书8篇.docx VIP
- 2025年成都百万职工技能大赛(快递员)备赛试题库(含答案).docx
- 材料概论-第二章课件.pptx VIP
- 工业机器人编程与操作(FANUC)配套课件.ppt
- 第一单元 快乐的课堂 1~5 数的认识和加减法(单元测试基础卷)数学青岛版一年级上册(A3).pdf
- 2025广西公需答案01.pdf
- (高清版)DBJ50∕T-396-2021 山地城市地下工程防渗堵漏技术标准.pdf VIP
- Q TZW 22-2016_烧烤工具 企业标准.pdf VIP
文档评论(0)