- 1、本文档共86页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息分布.
网络引文平均值 Vaughan和Shaw在2003年的研究中,将期刊作为基本研究单位,研究期刊影响因子和网络引文平均值之间的关系。发现期刊影响因子(JIF)高的期刊具有较高的ISI引文数和网络引文数。 在Kousha和Thelwall对开放式期刊的研究中,同样得出了期刊影响因子与网络引文平均值显著相关,以及ISI影响因子高的期刊其网络引文平均值也高的结论。 2.5.4 网络日志分析理论 网络日志(Web Log),是指在服务器上有关网络访问的各种日志文件, 包括访问日志、引用日志、代理日志、错误日志等文件。这些文件里包含了大量的用户访问信息,如用户的IP 地址、所访问的URL、访问日期和时间、访问路径等。 网络日志分析(Web Log Analysis),是指从网络的存取模式中获取有价值信息的过程, 也就是对用户访问网络时在服务器留下的访问记录进行分析,寻找其中蕴含的规律。网络日志分析是网络信息计量学的一种重要的研究方法。网络日志分析旨在[]通过对网络日志进行有效的数据挖掘,发掘隐藏在日志数据背后的规律和模式。 网络日志分析的分类 网络日志按其记录位置的不同可以分为三类:客户端网络日志、代理服务器端网络日志和Web服务器端网络日志。 三种日志数据集记载了用户使用网络资源的不同模式。客户端日志数据记录了单用户访问多服务器的模式,代理服务器端日志记载的是多用户访问多服务器的访问模式,而Web服务器端日志数据记载的是多用户访问单服务器的模式。代理服务器和Web服务器日志数据的收集是由服务器自动记录的,客户端日志数据则需要有专门的程序收集,比如客户端的代理软件或者经过修改的浏览器等。 网络日志挖掘的步骤 网络日志挖掘中使用和研究较多的是服务器日志挖掘,服务器日志挖掘一般分为四个步骤:源数据收集、数据预处理、模式挖掘和对挖掘出来的模式进行分析。 源数据收集 源数据的收集方法一般分为两种:服务器端数据收集和使用包检测技术收集。Web服务器和代理服务器数据合称为服务器端数据。 服务器端的数据收集可以使用网络日志收集工具,如WebTrends、FastStats Analyzer 和Happy Log 等等,从Web服务器、代理服务器的Web日志文件中收集数据。 包检测技术是指监视所有到达服务器的数据,提取其中的HTTP请求信息。此部分数据主要来自浏览者的点击流。 数据预处理 数据预处理是在将日志文件转换成数据库文件之后进行的,其目的是把网络日志转化为适合进行数据挖掘的可靠的精确的数据。因此,数据预处理是整个web日志分析的基础也是实施分析的前提,数据预处理的结果直接关系到整个Web日志分析的成败,在Web日志分析中有相当重要的作用。 数据预处理过程主要包括五个阶段:数据清洗(Data Cleaning)、用户识别(User Identification)、会话识别(Session Identification)、路径补充(Path Supplement)以及格式化(Format)。 模式挖掘 模式挖掘是web日志挖掘技术的核心部分,通过模式挖掘技术可以从经过数据预处理的日志数据中找出有价值的信息来生成模式。 基于事务的Web日志挖掘中常用的方法是聚类、序列模式分析和关联规则。 Web日志上的聚类有两种[],用户聚类和页面聚类。用户聚类是对用户的会话进行分析。根据用户的访问路径,发现行为模式相近的用户,并将这些用户分为一组。页面聚类是对被用户访问的页面情况进行分析,根据用户访问内容,发现被相同用户访问的页面,并将其归为一组。组内的页面具有相同的特征,它们都被同一群用户所访问,从而了解用户的访问模式,发现页面之间的关联,找出站点设计的不合理之处,帮助并指导改进站点的组织结构。 序列模式是指在一组有序的数据列组成的数据集中,经常出现的那些序列组合构成的模式。 关联规则指的是找出用户会话中经常被用户一起访问的页面集合,这些页面之间并无顺序关系。 模式分析 用户访问模式挖掘出来后,就要把这些模式处理为人们可以理解的知识。实现这一点需要工具的帮助。目前在Web访问模式分析方面学者们主要研究可视化技术、数据知识查询技术。 知识查询:挖掘出的大量模式需要一种类似关系数据库SQL的知识查询机制使用户可以很方便的查询到想要的模式,从而提高解释和分析的针对性。 可视化技术:可视化技术在其它领域的应用中己经取得巨大成功,因此人们很自然的选择它来理解Web用户的行为。Pitkow等人己经开发出WebViz系统,用以将网络的访问模式可视化。该系统可以过滤无关的Web页面,只分析有意义的部分,最终得到可视化的结果。 案例赏析:w
您可能关注的文档
- 你我弯弯腰__校园更美丽ppt主题班会课件 2.ppt.ppt
- 促大单、赢利润-修10步成为最棒的建材家居门店店长.ppt
- 俄国(苏联)史 ).ppt
- 便携冷镜式水露点分析仪PPT.ppt
- 俄语六级词汇和真题模拟题.doc
- 侵略与反抗复习课件(定稿2).ppt
- 保健知识培训.ppt
- 俄罗斯民族风情PPT.ppt
- 保利花园建议案.ppt
- 保利花园营销执行方案及开盘前工作计划 2010-122页.ppt
- 食品安全-速溶豆粉.pdf
- 农业生产中2025年大数据驱动的农业生产信息化与农业现代化融合报告.docx
- 农业生产中的2025年大数据分析在农业人才培养与引进中的应用报告.docx
- 农业生物技术全球应用现状分析及2025年农业产业变革报告.docx
- 中国电子信息产业集团有限公司校园招聘模拟试题附带答案详解汇编.docx
- 中国电子信息产业集团有限公司校园招聘模拟试题附带答案详解附答案.docx
- 中国电子信息产业集团有限公司校园招聘模拟试题附带答案详解及参考答案1套.docx
- 农业生产2025年大数据与农业科技创新体系优化报告.docx
- 网络规划设计师考试重难点归纳整理试题及答案.docx
- 农业生物技术全球应用现状及2025年农业产业布局报告.docx
文档评论(0)