基于ID3算法的Web日志挖掘预处理中的Frame页面过滤技术的研究.docVIP

  • 2
  • 0
  • 约5.71千字
  • 约 10页
  • 2017-08-19 发布于浙江
  • 举报

基于ID3算法的Web日志挖掘预处理中的Frame页面过滤技术的研究.doc

基于ID3算法的Web日志挖掘预处理中的Frame页面过滤技术的研究

基于ID3算法的Web日志挖掘预处理中的Frame页面过滤技术的研究 摘 要 描述了Web日志数据预处理技术的一种改进技术——Frame过滤技术,对其关键部分与运作模式进行了研究与改进。讨论了Frame页面过滤预处理技术在Web页面挖掘中的效率问题,分析了决策树算法中最著名的算法——ID3算法,并用ID3算法对Frame过滤算法进行了改进,比较新旧算法的执行效率及算法结果质量,得出了新算法执行效率更高及质量更好的结论,从而搞高了对存在Frame页面的网站实施Web日志挖掘算法时挖掘结果的兴趣度。 关键词 ID3算法;Web日志挖掘;Web日志预处理;Frame页面过滤1 引言 Internet的迅速发展使得Web为人们提供了内容丰富且数量庞大的信息,随着数据挖掘技术的出现以及发展,数据挖掘逐渐被应用于Web数据。 Web日志挖掘是三大类Web挖掘之一,它主要包括数据预处理和挖掘算法实施两个主要阶段.实施挖掘算法之前要对Web日志文件进行预处理,将其转化为用户会话集.本文着重讨论Web日志挖掘预处理技术中的Frame页面过滤预处理技术,即在传统的Web日志预处理过程中加入Frame页面过滤这一步骤,并提出了用决策树算法著名的ID3算法进行Frame页面过滤,进一步提高了日志数据预处理的质量和效率,从而为挖掘算法的实施提供更为准确的数据,提高了对存在Frame页面的网站实施Web日志

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档