- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
WEB日志挖掘技术研究与应用
WEB日志挖掘技术研究与应用
PAGE/NUMPAGES
WEB日志挖掘技术研究与应用
第五章,原来是关联规则,现在要改成聚类的方式,算法为第四章的改进的蚁群算法。原来的功能图太宽跨界了,图不可以超过文档的内容部分。
第一章,主要是研究现状及分析进行修改,其他的文字表述做相应修改
查重率差不多达到10%
引言
随着Web日志技术的急剧增长和快速普及,以及在电子商务和信息共享等方面的广泛应用,用户可以用很低的成本从网络上获得信息,Internet已成为最丰富的信息来源地,为了更好地对这些大量、无序的网页信息进行排序和检索,需要提升搜索引擎对网络信息的处理和组织能力,因此在这样的形势下,产生了Web日志挖掘(Web日志Mining)[1]技术,目的在于从Web日志的组织结构和链接关系中发掘出有用的模式和规律,该技术无疑成为数据挖掘中的热点,包括自然规则计算方法、神经网络、统计学、机器学习为主等人工智能相关技术。
随着Internet/WWW的全球互通互连,从中取得的数据量难以计算,所以当处理这些数据并且从Web日志的服务中抽取信息时需要采用Web日志挖掘技术.Web日志挖掘需要从非结构化、半结构化或动态易混淆的数据中,抽取潜在的、易用的信息和模式的过程.根据Web日志数据类别的不同,可以将Web日志挖掘分为以下三类:Web日志内容挖掘、结构挖掘和使用挖掘.这三类挖掘分别作用于网页信息站点中的内容、结构和使用信息,并且已经在发现用户访问模式、反竞争情报活动、建立数据仓库等很多方面得到了应用。
课题背景及研究意义
随着万维网的迅速发展以及良好的发展趋势,尤其是电子商务的蓬勃发展为网络应用提供了强大的支撑。然而处理Web日志上海量的数据量,需要一种能高效快捷地从Web日志页面中获取信息的工具,由此搜索引擎产生了。现有的搜索引擎技术在很大程度上方便了人们对信息的检索,不过仍然存在一些不足之处,比如搜索精度不高、覆盖率有限等问题,无法更好地发现Web日志上潜在、隐藏的知识.
将传统的数据挖掘同Web日志相融合,从而发展出了Web日志挖掘,该技术就传统的数据挖掘来看存在较多优势.传统数据挖掘技术只是对数据结构中结构化的数据进行挖掘,通过数据间的存储结构不同来发现知识,而Web日志挖掘是针对半结构化、杂乱、动态的数据进行挖掘,由于Web日志页面内容的复杂程度远超过普通文本的样式结果,所以导致了Web日志挖掘技术无法直接传承传统的数据库挖掘模型和技术。这就让挖掘的前提需要将传统数据挖掘技术及Web日志挖掘相结合,融合各自的优点,使整个数据挖掘系统同数据库能更紧密的结合在一起。
由于要对数据进行组织和整合,这就需要一个完整的Web日志挖掘体系,才能分析并得出自己需要的信息。因此进行挖掘之前需要找到相关的Web日志文档.各Web日志信息之间有着密切的关系,从中找到正确的数据结构特点,利用自动化搜索的方法实现对Web日志上信息结构排序和内容的抽取,避免了各算法之间使用的重复性.
蚁群算法是一种模拟进化的算法,它是借鉴蚂蚁在寻找食物过程中会自动搜寻最短路径而衍生出来的。该算法具有优良的分布式计算、正反馈性等特点,特别是在解决组合最优的问题上已经吸引了很多中外学者的关注。它也是继遗传算法、人工神经网络算法后又一个得到大家认可的研究性课题。
研究现状及分析
Web日志挖掘无论在国内还是国外都是通过挖掘服务器存储的Web日志,进而发现用户访问Web站点的访问模式。
根据对Web日志数据源处理方法的不同,Web日志挖掘可以分为以下两类:第一类是将Web日志记录中的数据进行转换,然后传递进传统的关系表中,再用常规的算法对关系表中的数据进行挖掘。第二类是在对Web日志记录的数据进行挖掘之前对数据先进行数据预处理操作.
国外对Web日志挖掘的研究基本上可以从1996年算起,比较突出的有:
1996年学者M。S。Chen、H。Mannila、T.Yan提出了可以将数据挖掘方法用于Web研究领域。Mannila和Chen在研究过程中都假设去掉了图形文件、声音文件以后的Web服务器日志如实地反映了用户在网站中访问的情况。Mannila[2]把用户访问页面当作事件,从网站访问日志中试着寻找用户访问网站的周期。ChenREF_Ref435648169\r\*MERGEFORMAT[3]提出了最大向前参引路径,并提出用这种方法把用户的Session分解成为一个个访问事务,然后就可以在事务基础上,挖掘用户访问的模式。T.Yan研究了如何动态地根据将用户进行分类,并根据同类用户访问页面的情况提供推荐页面。
1997年,PerKowitz[4]等人在人机界面研究领域提出了AdaPtiveWebSite的概念,主要研究的是如何以历史访
您可能关注的文档
- 标准露天矿论文.doc
- 毕业设计论文基于服务器技术的局域网内多点信息交互程序设计.doc
- 安全生产宣传标语 .doc
- 不同地区过中秋节的习俗_中秋节吃石榴注意事项.docx
- 常用班主任评语.docx
- 逻辑3.运用辩证思维方法答案公开课教案教学设计课件资料.docx
- 高中化学奥赛辅导有机化学(第一部分之一)公开课教案教学设计课件资料.ppt
- 高一电子电工第一学期期末考试试卷公开课教案教学设计课件资料.docx
- 2021年高二下期末模拟考试答案公开课教案教学设计课件资料.docx
- 高一化学期中复习卷3公开课教案教学设计课件资料.docx
- 2023学年诸暨中学高三年级第二学期3月第二次模拟考试(政治)公开课教案教学设计课件资料.docx
- 运动的合成与分解(二)公开课教案教学设计课件资料.pptx
- 近五年浙江省各地图形的翻折(轴对称)原题公开课教案教学设计课件资料.doc
- 如何做教师-2019-11-13-中关村一小相关公开课教案教学设计课件资料.pptx
- 生活中的圆周运动 (水平面)正式版公开课教案教学设计课件资料.pptx
- 专题10 条件概率与全概率公式公开课教案教学设计课件资料.docx
- 金华市东阳市2019学年第二学期期末测试卷公开课教案教学设计课件资料.doc
- 5 琥珀(第二课时)【慕课堂版】公开课教案教学设计课件资料.pptx
- 项目五 打印米老鼠模型公开课教案教学设计课件资料.ppt
- (打印版)9月25日地理周练公开课教案教学设计课件资料.docx
文档评论(0)