- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于ID3算法的Web日志挖掘预处理中的Frame页面过滤技术的研究的论文.doc
基于ID3算法的Web日志挖掘预处理中的Frame页面过滤技术的研究的论文
摘 要 描述了e过滤技术,对其关键部分与运作模式进行了研究与改进。讨论了frame页面过滤预处理技术在e过滤算法进行了改进,比较新旧算法的执行效率及算法结果质量,得出了新算法执行效率更高及质量更好的结论,从而搞高了对存在frame页面的网站实施e页面过滤
1 引言
inter的迅速发展使得e页面过滤预处理技术,即在传统的e页面过滤这一步骤,并提出了用决策树算法著名的id3算法进行frame页面过滤,进一步提高了日志数据预处理的质量和效率,从而为挖掘算法的实施提供更为准确的数据,提高了对存在frame页面的网站实施e页面过滤技术[2]
2.1 l文件与用户会话相关,所以通过检查url的后缀删除不相关的数据。
用户识别是指要识别出每个访问网站的用户。一般e页面和其subframe页面也将一起出现在用户会话文件中。在这样的用户会话文件上进行数据挖掘,frame页面和subframe页面作为频繁遍历路径或者频繁访问页组出现的概率很高,并且他们同时出现在挖掘结果中,这就降低了挖掘结果的兴趣性。
图1 典型的e页面过滤预处理技术
html规范通过“frame”标记支持多窗口页面,每个窗口里装载的页面对应一个url。 当用户请求frame页面的url时,frame页面和其中的subframe页面作为一个多窗口页面展现在用户面前,我们可以将用户对frame页面的请求看成就是对多窗口页面的请求。这样,在数据预处理阶段将frame页面和其中的subframe页面作为一个整体考虑,并且把frame页面对应的url当作这个整体的代表。从全局而言,这样处理可以有效地消除frame页面对日志挖掘的影响,最终提高挖掘结果的兴趣性。
图2 改进的e页面过滤。frame页面过滤要完成的任务是,根据从站点的拓扑结构中提取出的frame-subframe关系表,从会话识别过程中生成的会话文件中,寻找frame页面及其subframe页面,将会话文件中对frame和其subframe页面的请求用frame页面代替,从而删除会话文件中多余的subframe页面。由于删除了会话文件中的subframe页面,因此会丢失subframe页面中包含的超链接信息,所以接下来的路径补充步骤中必须使用提升的站点结构。
3 基于id3算法的frame页面过滤预处理技术
如上文所述,我们应用frame页面过滤技术有效地消除了frame页面对日志挖掘的影响,然而我们知道e页面过滤算法中是对每个用户对话的每个页面进行是否frame和subframe的判断,并且对判断出的子框架逐个地进行删除,而且因为subframe页面的删除导致后面必须用提升的站点结构,虽然较一般预处理技术增加了兴趣度,但是效率还是比较低的,而且也增加了开销。并且subframe过滤中被删去,在后面的路径补全中能否完全恢复也值得高榷。而且有快速分类性质允许多粒度层的决策树分类算法可以解决此问题。本文在此用决策树算法[1] [3]中著名的id3算法对提高frame过滤效率进行了一些探讨
3.1 id3算法[1] [3]的描述
id3算法的基本思想是贪心算法,采用自上而下的分而治之的方法构造决策树。首先检测训练数据集的所有特征,选择信息增益最大的特征a建立决策树根节点,由该特征的不同取值建立分枝,对各分枝的实例子集递归,用该方法建立树的节点和分枝,直到某一子集中的数据都属于同一类别,或者没有特征可以在用于对数据进行分割。
算法描述如下:
算法:generate-decision_tree 由给定的训练数据集产生一棵决策树。
输入:训练样本samples,由离散值属性表示;候选属性的集合attribute_list
输出:一棵决策树
方法:
1) 创建结点n
2) if samples 都在同一类c then
3) 返回n 作为叶结点,以类c标记;
4) if attribute_list为空 then
5) 返回n作为叶结点,标记为samples最普通的类;//使用多数表决。
6) 选择 attribute_list中具有最高信息增益(关于信息增益的求法请参见文献[3])的属性test_attribute;
7) 标记结点n 为test_attribute;
8) for each test_attribute 中已知值ai //划分sample;
9) 由结点n长出一个条件为test_attribute=ai的分枝;
10) 设si是sample 中test_attribute=ai 的样本集合//一个划分
11) if si 为空 then
12) 加上一个树叶,标记为samples中最普通的类
文档评论(0)