数据挖掘技术研究及应用.docxVIP

下载本文档

4
0
约3.19万字
约 58页
2018-11-04 发布于福建
举报
版权申诉

数据挖掘技术研究及应用.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘技术研究及应用

引言随着Internet/WWW的全球互通互连，从中取得的数据量难以计算，所以当处理这些数据并且从Web日志的服务中抽取信息时需要采用Web日志挖掘技术。Web日志挖掘需要从非结构化、半结构化或动态易混淆的数据中,抽取潜在的、易用的信息和模式的过程。根据Web日志数据类别的不同，可以将Web日志挖掘分为以下三类：Web日志内容挖掘、结构挖掘和使用挖掘。这三类挖掘分别作用于网页信息站点中的内容、结构和使用信息，并且已经在发现用户访问模式、反竞争情报活动、建立数据仓库等很多方面得到了应用。课题背景及研究意义随着万维网的迅速发展以及良好的发展趋势，尤其是电子商务的蓬勃发展为网络应用提供了强大的支撑。然而处理Web日志上海量的数据量，需要一种能高效快捷地从Web日志页面中获取信息的工具，由此搜索引擎产生了。现有的搜索引擎技术在很大程度上方便了人们对信息的检索，不过仍然存在一些不足之处，比如搜索精度不高、覆盖率有限等问题，无法更好地发现Web日志上潜在、隐藏的知识。将传统的数据挖掘同Web日志相融合，从而发展出了Web日志挖掘，该技术就传统的数据挖掘来看存在较多优势。它们的不同之处在于：传统数据挖掘技术只是对数据结构中结构化的数据进行挖掘，通过数据间的存储结构不同来发现知识，而Web日志挖掘是针对半结构化、杂乱、动态的数据进行挖掘，由于Web日志页面内容的复杂程度远超过普通文本的样式结果，所以导致了Web日志挖掘技术无法直接传承传统的数据库挖掘模型和技术。这就让挖掘的前提需要将传统数据挖掘技术与Web日志挖掘相结合，融合各自的优点，使整个数据挖掘系统同数据库能更紧密的结合在一起。由于要对数据进行组织和整合，这就需要一个完整的Web日志挖掘体系，才能分析并得出自己需要的信息。因此进行挖掘之前需要找到相关的Web日志文档。各Web日志信息之间有着密切的关系，从中找到正确的数据结构特点，利用自动化搜索的方法实现对Web日志上信息结构排序和内容的抽取，避免了各算法之间使用的重复性。蚁群算法是一种模拟进化的算法，它是借鉴蚂蚁在寻找食物过程中会自动搜寻最短路径而衍生出来的。该算法具有优良的分布式计算[2]、正反馈性等特点，特别是在解决组合最优的问题上已经吸引了很多中外学者的关注。它也是继遗传算法、人工神经网络算法后又一个得到大家认可的研究性课题。在本论文之中，将一种比较新型的蚁群算法的概念引入到WEB挖掘的聚类、分类技术之中，在获取更优的分类规则上面取得了较好的效果。研究现状及分析Web日志挖掘无论在国内还是国外都是通过挖掘服务器存储的Web日志，进而发现用户访问Web站点的访问模式。根据对Web日志数据源处理方法的不同，Web日志挖掘可以分为以下两类：第一类是将Web日志记录中的数据进行转换，然后传递进传统的关系表中，再用常规的算法对关系表中的数据进行挖掘。第二类是在对Web日志记录的数据进行挖掘之前对数据先进行数据预处理操作。(1) Web日志挖掘聚类和分类技术聚类是从Web日志的访问数据中分析并整合出来具有相似特征事务的技术。Web日志使用挖掘中分为：页面聚类和使用聚类。页面聚类是通过搜索引擎在Web日志上找到具有相关内容的页面组，这更方便于用户在上网时能更容易地获得想要的信息。使用聚类就是将具有相似浏览模式的用户分为一组，这样形成了若干组，并对其量化，从中得到对用户有用的规则，当前该技术常应用于电子商务和一些个性化服务上。这两种聚类方法就是通过搜索引擎分析用户查询或访问网页信息时产生的历史记录所形成的HTML，来向用户提供超链接。分类是对新添加的数据进行分类并将一个对象分到事先定义好的类中，根据用户群的特征来挖掘出用户群的访问特征。在Web日志挖掘中，分类可以通过访问用户信息而得到的一些用户特征，这需要抽取并选择出最好地描述这组特定用户的特征，并根据这些特征对用户进行分类。常使用监督归纳学习算法来进行分类，如决策树、K-邻近分类法和支持向量机、机器学习法、贝叶斯分类方法等。(2) 蚁群算法蚁群算法，现在被称为蚁群优化(ACO,Ant Colony Optimization)是一种用来在图中寻找优化路径的机率型算法，它源于社会昆虫的群体活动所表现出来令人惊讶的行为，也这对日后研究蚁群行为提供全新的领域。ACO技术是一种基于群体智能的算法，它源于自然解决问题的思想，并在求解组合优化类问题上有明显的优越性。Marco Dorigo在1991年他的论文中首先提出了蚂蚁系统(AS),通过正反馈、分布式协作来寻找最优路径。并且常用于解决二次指派、多维背包、Job-shop调度等问题上。AS优化算法采用了分布式计算方法，具有多代理性和较强的鲁棒性等特点，且该算法已被大量应用于机器人协作问题求解、电力、通信、数据分析等领域。蚁群算法是学者受到蚂蚁觅食的启发