- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树的网站知识发现.doc
基于决策树方法的网站知识发现
张裕钦
(广东工业大学 计算机学院,广东 广州 510090)
摘要:决策树方法作为一种重要的数据挖掘方法,在知识发现领域里有着广泛的应用.本文在分析了当前网站中知识发现的重要性后,接着介绍了决策树算法以及构建决策树的方法.最后通过一个实例演示了决策树算法在网站知识发现中的应用.
关键字:知识发现;Web数据挖掘;决策树;网站
Knowledge Discovery in Website Based on Decision Tree Approach
Zhang YuQin
(College of Computer ,Guangdong University of Technology, Guangzhou Guangdong 510090,china)
Abstract Decision tree approach is an important method in data minning. This paper expresses the importance of knowledge discorvery in website, and then presents the decision tree algorithm and the process of decision tree built. Finally,through an instance,the paper shows a application of decision tree approach in knowledge dicovery in website.
Key words Knowledge dicovery;Web data mining;Decision tree;Website
1 引言
随着信息技术的迅速发展,Internet在深度和广度方面正在进行飞速发展,并以前所未有的方式改变着人们的生活方式.这使得WWW上的一些主要工作,如:网站设计,Web服务设计,电子商务等工作变得越来越复杂和越来越繁重.
互联网带给人们海量信息的同时,却让人们感觉知识的贫乏.其中很大一部分原因是因为人们在面对如此海量信息的时候,却不知道如何下手去发现自己需要的知识,更不用说去挖掘出隐藏在大量信息后面的更深层的知识。因此,怎样从海量的数据信息中发现有用的、潜在的知识便成了当前研究的热点.
知识发现是指从数据集中识别正确、新颖、有潜在应用价值以及最终可为人们理解的模式的方法[1].其核心部分是数据挖掘.对于Web上的知识发现又可分为:基于Web内容的数据挖掘、基于Web结构的数据挖掘、基于Web访问的数据挖掘[2]..其中基于Web访问的数据挖掘,即Web使用挖掘,是研究用户Web浏览行为的技术和工具,理解访问者的浏览兴趣是提高Web服务质量和改善站点结构设计的重要环节.通过分析和探究用户访问情况中的规律,可以识别电子商务的潜在客户,增强对最终用户的因特网信息服务的质量和交付,并改进web服务器系统的结构和性能[3].
分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多.分类的目的是学会一个分类的函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定的类别中的某一个.分类和回归都可用于预测.预测的目的是从利用历史数据库中的自动推导出对给定数据的推广描述,从而能对未来数据进行预测.基于机器学习原理的决策树分类法是一种常用的分类器构造方法,它对应的知识表示为决策树[4].,决策树是一种常用于预测模型的算法,它通过将大量数据有目的地分类,从中找到一些具有商业价值的,潜在的信息[5].
2 发现用户网站使用中的知识
当前,随着动态网页技术的迅速发展.Internet上的网站基本都是采用动态网站技术来实现,并同时建立了相对安全、较完善的用户访问控制体系.比如:通过记录用户的详细访问日志来监控用户使用网站的情况和网站的运行情况.对于商业网站,更是建立了更加完善的会员管理系统,来更好的管理客户和提供各类服务.对于服务器的日志格式一般都遵从W3C标准,如表1所示.
表1 日志格式
字段 描述 Date Date.time,and timezone of request Client IP Remote host IP and /or DNS entry User name Remote log name of the user Bytes Bytes transferred(sent and received) Server Server name,IP address and port Request URI query and stem Status http status code re
文档评论(0)