基于粒子群优化算法Web挖掘技术研究.docVIP

下载本文档

0
0
约3.29千字
约 7页
2018-05-25 发布于福建
举报
版权申诉

基于粒子群优化算法Web挖掘技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于粒子群优化算法Web挖掘技术研究

基于粒子群优化算法Web挖掘技术研究　　摘要：Web是目前最大的信息系统。Web挖掘就从Web文档和Web活动中发现和抽取用户感兴趣的、潜在的、有用模式和隐藏的知识。本文介绍了有关web挖掘的任务和存在问题，同时介绍了PSO算法以及各种改进措施。　　关键词：Web；挖掘；PSO 　　　　随着Internet的迅速发展，World Wide Web已深入到社会生活的方方面面。Web可以说是目前最大的信息系统，其数据具有海量、多样、异构、动态变化等特性。人们使用Web，一般有如下需求[1]：　　获取相关信息或服务；　　从Web信息中发现新的知识；　　提供个性化服务：不同的用户对信息、服务有不同的要求。　　为了解决上述问题，人们迫切需要能自动地从Web上发现、抽取和过虑信息的工具，由此产生了Web挖掘。　　Web挖掘就是从Web文档和Web活动中发现和抽取潜在的、用户感兴趣的有用模式和隐藏的知识[2]。　　1.Web挖掘　　WEB挖掘可以认为包括以下四个子任务[3,4]：资源发现、信息选择和预处理、概括和泛化、分析。　　资源发现是一个从Web上的联机资源中检索数据的过程。信息选择和预处理是一个信息转变的过程。它可以是除去停用词，词干处理，发现训练集中的短语，以及得到关系或逻辑表示等。概括过程是应用数据采掘技术获得知识。最后的分析是对采掘结果的验证和解释，在此过程中应该发挥人的作用。　　Web文本信息的特征获取是指自动地从Web文本信息中抽取出代表其内容主题的特征词条形成特征矢量来表示Web文本。它影响到下一步Web文本分类的质量。文本挖掘问题的一个主要难点是特征矢量的维数过高，对于大多数学习算法来说都难以承受。目前已有多种方法被用于特征抽取，比如文档频次门限方法、信息增益方法、χ2分布方法、互信息熵方法、基于奇异值分解的潜在语义索引方法（LSI）以及基于遗传算法的特征提取算法等。　　聚类技术是对符合某一访问规律特征的用户进行用户特征挖掘。Web使用挖掘中存在两种类型的聚类：使用聚类(用户聚类)和页面聚类。根据聚类的结果聚类方法可分为层次聚类与非层次聚类。在不同的方法中，人们研究了获得较高的计算效率的问题。　???在Web使用挖掘过程中，对用户、Web页面等Web对象进行聚类时，存在明显的模糊性，模糊聚类也因此成为目前Web聚类分析研究的主流。　　2.Web挖掘中存在的问题　　Web数据挖掘[5]与传统数据挖掘不同，Web页面的结构比一般文本文件复杂很多，它可以支持多种媒体的表达。人们最初是希望通过Web来实现世界各种信息的互通，在这个平台上自然希望任何的信息都可以表达了。因此也造成了互联网数据的复杂性这个特点。而在互联网上文档一般是分布的，异构的，无结构或者半结构的。许多新技术的产生为解决这个难题提供了一条可行的道路，如XML技术。还有，互联网上的数据动态性极强，页面本身的内容和相关的链接经常更新。而互联网面对的客户也各不相同，这些都造成了用户行为模式分析的困难度。　　现行Web挖掘方法很多，解决Web信息应用部分问题，但存在一定的不足，如：由于用户查询固有的主观性、不精确性和不确定性，大多数Web检索系统仅用一个简单的检索模型，侧重于检索效率，忽视了检索的准确性。不能进行软决策，现有查询是基于“硬抛弃”法，而且取决于查询与检索出文档的相关性，但相关性只是文档的部分属性，不是很分明的界限。页面分级还不全面，还没有考虑各种参数的权重，如点击位置、相邻性和频率等,分级还很少考虑用户的特点。　　为处理Web数据特征，克服目前现有的Web挖掘方法的局限，软计算方法是一个很好的方法。软计算是一组协同的方法，它提供一种处理现实中模糊状态信息灵活处理能力。它们的目标是通过探索不精确、不确定、近似推理和局部正确的最大可能限度，达到易理解的、健壮的和低代价的解决方案，类似人的决策过程。软计算技术包括模糊逻辑(fuzzy logic，FL)、粗糙集(rough set，RS)、人工神经网络(artificial neural network，ANN)和遗传算法(genetic algorithm，GA)[ 5-8]。　　现有的Web文档特征抽取算法文章证明这些特征抽取方法都有一些局限。传统的聚类分析把每个待辨识的对象严格地划分到某个类中，各个类别的界限是分明的。然而现实世界存在着大量的界限划分不严格的聚类问题。即问题具有一定的模糊性，如在区分“优”和“良”等级时，就需要模糊划分。在Web使用挖掘过程中，对用户、Web页面等Web对象进行聚类时，存在明显的模糊性，模糊聚类也因此逐渐成为Web聚类分析研究的主流。　　3.粒子群优化算法　　粒子群优化(Particle S