- 7
- 0
- 约1.72千字
- 约 2页
- 2017-06-08 发布于重庆
- 举报
网络日志挖掘
通过调查从Web日志中挖掘感兴趣的知识
Federico Michele Facca, Pier Luca Lanzi * 摘 要
网站使用挖掘是指在网站区域内从网络服务器产生的信息中采伐并通过处理后提取感兴趣的知识。 在篇论文中,我们将从数据挖掘集在从数据挖掘集受到增长关注的这个区域提出一个新发展的调查法。
关键字:机械学习;网站挖掘
1 引言
万维网是数据的一个巨大的数据(可能来自某个网站的内容)来源,公开地显示了数亿可利用的页面, 或利用网站使用, 显示世界上所有服务器每日收集的日志信息。网站挖掘是在数据挖掘的范围内从万维网中处理并提取感兴趣的知识。更加精确地讲, 网络内容挖掘是网站挖掘中关注于在网页中未处理的但却有用的信息那一部分;源数据主要包括在网页中的原文数据(例如文字或者标点等);典型的应用是基于内容的范畴和网页基于内容的等弟。网站结构挖掘是网站挖掘中关注于站点结构的那个部分;源数据主要包括在当前网页结构信息(例如连接或者其他页面等);典型的应用是网页中基于链接的范畴,网页等第通过内容和结构的组合反推网站模型工程。网站使用挖掘是网站挖掘中从服务器记录文件中处理并提取知识的那一部分;源数据主要包括收集当用户进入网络服务器时的并且可能以标准格式(例如普通日志格式,延长的日志格式等)表现的 原文 日志。典型的应用是那些基于用户的用户建模技术如网上个性、适应性网站和用户建模近年挖掘研究领域蓬勃发展使用挖掘自世纪90年代中期, 挖掘论文,; 大概有150个文,400个,在2001年前已经出版; 50%左右论文使用挖掘第一就这个话题webkdd,于1999年举行. 自2000年以来 发表论文150多使用挖掘
还有一些文概述在自1996R. Kosala, H. Blockeel, Web mining research: a survey, SIGKDD: SIGKDD explorations: newsletter of thespecial interest group SIG on knowledge discovery data mining, ACM 2 1 2000 1–15. 定义挖掘、网络内容挖掘提供分类、结构挖掘和使用挖掘; 定义Web挖掘、网络内容挖掘提供分类、Web结构挖掘和Web使用挖掘 然后它提供的一项主要集中在领域的调查结果J. Srivastava, R. Cooley, M. Deshpande, P.-N. Tan, Web usage mining: discovery and applications of usage patterns from web data, SIGKDD Explorations 1 2 2000 12–23.)展现调查研究使用挖掘领域主要在商业和websift工程 以前称为聚类 最近, S. Pal, V. Talwar, P. Mitra, Web Mining in soft computing framework: relevance, state of the art and future directions, IEEE Transactions on Neural Networks 13 5 2002 1163–1177.)也概述了软计算技术 如神经网络、模糊逻辑、遗传算法、 而粗糙集 用于应用与挖掘网内容挖掘; 几个使用挖掘技术应用本文是调查领域的最新发展,使用挖掘这项调查是基于2000年以来发表150余使用挖掘话题由于不可能在此一一列举我们提供一个在线目录 /intranet/polimi/)。本文安排如下起初,我们讨论不同类型可以用户导航使用数据确定用户 例如 用 ,成为关系数据库存储数据, 或者提供一个架构充分挖掘下我们概览两个提供正交观点使用挖掘课题: 技术 第4 及应用 第5 . 在第6我们讨论商业和可供使用挖掘任务公共软件包技术涉及类数据源我们讨论的隐私问题在使用中出现的使用挖掘,可以准确地跟踪用户行为最后,在第9我们认为在这一领域的未来的趋势,
原创力文档

文档评论(0)