网络数据挖掘在图书馆个性化推荐中应用探究.docxVIP

网络数据挖掘在图书馆个性化推荐中应用探究.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络数据挖掘在图书馆个性化推荐中应用 探究 引言 讨论如何在图书馆个性化推荐中应用网络数据挖掘,并 具体对社会网络分析的应用进行了深 入分析,提出了具体算法。 网络数据挖掘又称Web数据挖掘,是数据挖掘技术在网 络信息处理中的应用,从与网络相关的资源和行为中抽取感 兴趣的、有用的模式和隐含信息,是从Web网站的数据中发 掘关系和规则。其挖掘对象是大量、异质、分布的Web文档, 可以对数据库、Web服务器上的日志、读者信息等数据展开 挖掘工作。同时,由于Web在逻辑上是一个由文档节点和超 链接构成的图,因此Web挖掘所得到的模式可能是关于Web 内容的,也可能是关于Web结构的,或者是关于用户行为模 式的lo通过网络数据挖掘对每个用户的访问行为、频度、 和内容等进行分析,能提取出每个用户的特征,给每个用户 个性化的界面,提供个性化的Web信息服务。 本文以中国知网(CNKI)总库为统计源,以主题“We数 据挖掘”、‘网络数据挖掘”搜索到国内近六年的论文数 量,从中可以看出相关领域的研究从2007年开始呈逐年上 升趋势,2009年达到峰值后,逐年有所下降。具体数据如表 2所示: 根据对这些文章内容的分析,研究网络数据挖掘算法及 其实现的占大多数,国内关于网络数据挖掘在图书馆的应用 研究不多,大多是作为电子商务中数据挖掘研究的一部分。 网络数据挖掘在图书馆中的应用主要表现在以下几个方面: 图书推荐系统。这类系统主要通过日志挖掘读者 的借阅习惯,推测读者的阅读需求,从而为不同兴趣的读者 提供相应的推荐内容。这种个性化推荐系统能够较好地把握 读者需求,通过聚类和关联规则为读者推荐借阅过的相似图 书或可能需要的其他文献。但它的缺点在于,推荐的相似图 书,读者已经借阅过,再借阅的几率不大。因此,这个研究 的重点和难点在使用的挖掘算法上2o 网络学习平台。现代图书馆越来越重视读者的学 习需求,从而推出各种学习服务3O这类应用主要是针对网 络学习中的学习资源的挖掘。因为在图书馆提供的虚拟学习 平台中,资源是庞大的,而读者的精力有限,同时每个人的 兴趣不同,需要对不同的读者组织不同的教育资源。而网络 数据挖掘在其中所起的重要作用就是对读者的借阅和浏览 行为进行挖掘分析,根据分析结果为读者匹配学习资源。 文献检索系统。网络数据挖掘技术也常见于文献 检索系统的应用中,图书馆资源包含大量的文本、期刊、视 频等。读者常常需要通过检索才能获取自己想要的信息,使 用网络数据挖掘也是为读者提供高效获取信息的方式。 由以上分析看出,网络数据挖掘在图书馆中应用的主要 目的就是为读者找到所需资源,满足读者的个性化需求。下 面我们就针对网络数据挖掘在图书馆个性化推荐中的应用 进行探讨。 1、图书馆个性化推荐常用分析方法 1.1聚类算法 通常说来,许多图书馆的读者建模方法是基于统计的, 即对所有读者的统计数据(比如基于平均值)进行分析。这 样的后果是对读者的个性化行为视而不见,影响了读者专业 性和个性化需求,忽略了隐含的读者信息的价值。而读者聚 类建模,则是把一类读者聚集起来,分析他们的特性并对这 类读者建模,在建模质量相同或接近的条件下,聚类建模所 需的数据量将远远低于对单个读者建模的数据量,因为分类 中的每个读者(知识背景和生活阅历贡献具有很大的相似 度)都贡献了其数据。常用聚类算法如表3。 1. 2社会网络分析 社会网络分析已经有相当长的一段历史了,近60年来, 相关研究人员做了大量的研究,由Brin和Page等人提出的 PageRank 算法 PageRank 算法, 以及由Kleinberg说提出来的HITS算法开 创了将社会网络研究应用在Web范畴的先河。这两种算法都 来源于社会网络分析,都利用了网页的超链接结构并依据网 页的“威望”或者权威”级别来对网页进行分级排序。这 在搜索引擎中得到了广泛的运用。图书馆也同样存在着这样 的社会网络关系,这种关系主要通过读者浏览和获取文献行 为体现。这种关系和活动可以用网络或图来表示,其中,每 一个顶点(结点)用来表示一个读者,而一条边的连接用来 表示两个读者之间的关系。利用网络图我们可以研究该网络 的结构特征,以及每个读者威望性、中心性等属性。同时从 中我们也可以找到各种类型的子图,即社区。 2、基于网络数据挖掘的图书馆个性化推荐分析 2. 1基于K-means聚类推荐分析 图书馆读者聚类可以通过两种方式进行聚类,建立二维 推荐模型,即:查询聚类和借阅聚类。在此,只要实现查询 信息和借阅信息的高效率、高准确率的自动分类,然后根据 读者兴趣模型匹配,就可以完成其推荐过程。自动分类信息 可以采用K-均值聚类算法实现,并根据图书馆相关信息结构 的特点,对算法本身加以改进。具体流程如图1。 2. 2基于PageRank社会网

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档