基于网络挖掘技术的现代科技情报服务模式探索.pdfVIP

基于网络挖掘技术的现代科技情报服务模式探索.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二二十三届伞国计算机信息管理学术研讨会论文集 基于网络挖掘技术的现代科技情报服务模式探索 青岛市科学技术信息研究所于升峰 (山东青岛市龙口路40号,山东青岛266003) yu@0532st.net 摘要本文讨论网络挖掘的数据采集技术、预处理技术及模式发现技术,并结合实际探索科技情报服 务的新模式。 关键词网络挖掘,模式发现。科技情报服务 TP393 分类号TP311.13 作为专业的科技情报服务机构,科技情报服务:r作走过了近50年的历程,从最初的手.T收集资 料、文献,加工分析,写出研究报告,到信息社会通过网络进行科技情报的获取、研究、传递、计 算机检索和科技查新,科技情报服务工作始终都是科技创新、社会发展的重要保障。随着互联网的 迅速发展和普及,广大科技管理者和科研人员获得科技情报的渠道越来越多,专业科技情报服务机 构能够利用的国内外数据资源,普通用户照样可以申请获得使用权,在信息资源占有方面,专业机 构已无优势可言。但同时,由于信息急剧膨胀,人们获取所需要信息的难度逐渐加大,非专业人士 要想短时间内猎取准确信息越加困难,他们从最初的兴奋期逐渐过渡到理智期,希望用最短的时间 得到专业信息服务机构提供的个性化服务,鉴于此,本文即探索基于网络挖掘技术的现代科技情报 服务新模式。 网络挖掘大体有三类:网络内容挖掘、网络结构挖掘和网络使用挖掘。网络内容挖掘是指从 web上的文件内容及其描述信息中获取潜在、有价值的知识或模式的过程;网络结构挖掘是从www 的组织结构的链接关系中推导知识,主要是通过对web站点的结构进行归纳、分析和变形将Web页 面进行分类,以利于信息搜索;网络使用挖掘就是对用户访问web时在服务器留下的访问记录进行 挖掘,所以也叫WEB使用挖掘,下文研究的网络挖掘即是WEB使用挖掘。 1WEB使用挖掘 WEB使用挖掘是从用户网络行为中抽取用户感兴趣的模式。通过对用户浏览网站的使用数据收 集、分析和处理,建立起用户行为和兴趣模型,这些模型可以帮助理解用户行为,为用户提供良好 的个性化科技情报服务。由于个性化服务所面临的关键问题是需要对大量非注册用户行为模型进行 深层理解,传统的协同过滤方法很难处理非注册用户的情况,WEB使用挖掘能较好处理这类问题; 同时,借助于WEB使用挖掘可以从传统的基于使用数据的静态建模转换到基于用户操作行为的动 态建模,在系统里帮助改善用户的网络使用经验,实现良好个性化服务。WEB使用挖掘一般包括: (1)数据采集:(2)数据预处理;(3)模式发现。 2数据采集 2.1数据采集技术 数据采集阶段就是要根据系统要求,确定从何处采集用户的使用数据,识别出它们的内容和结 构。web服务器,客户端以及代理服务器是目前三个主要数据来源。 151 第二十三届伞周计算机信息管理学术研讨会论文集 2.1.1服务器端数据 服务器端的数据主要包括:服务器日志文件、Cookies、用户显示数据输入和外部统计数据。 1、服务器日志文件。web服务器日志文件记载的是多用户访问单服务器数据,这些日志记录了 用户对Web页面的存取情况,主要有两种文件格式:常规日志文件格式CLF和扩展日志文件格式 ECLF。由于网络高速缓存以及中间代理服务器存在造成IP地址的动态变化,从而使得准确提取用 户数据并不容易,目前主要采用各种启发式方法帮助解决。 T钿eohT13l UgerDImTbI iT五五 叵P E匹u,亘erlD二 ——卜—一 C.|p I僦。 l:.|p Ida¥ l●;eINalne I●o·r l-;÷陋g,elt

文档评论(0)

hnlhfdc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档