- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
图书情报工作 2007年增-TU(1)
LIBRARYANDINFORMATION
SERVICE.Supplement,2007
数据挖掘在网络化时代图书馆
中的应用
王 翠
中共中央文献研究室北京100017
[摘要]网络化时代,图书馆需要从大量、繁杂的信息中提取有用信息,在采编、检索和咨询等部门为用户提供更好服务。这
些都需要数据挖掘技术的支持。
(关键词】网络化时代图书馆服务数据挖掘
[分类号]G250.73
图书馆学家阮冈纳赞曾提出图书馆五定律,其 运用的;发现的知识仅供支持解决特定的问题即可。
中有两条就是“为读者找书,为书找读者”。发展到 数据挖掘试图阐明、分析和实施从未组织的数
现在的网络化时代,此两条的内涵发展成为读者找 据中提取有意义的信息和基本推断过程。它融合了
到适用的信息,把信息推荐给合适的读者。总之,图 统计方法、计算机技术以及人工智能技术,半自动地
书馆需要利用现代化手段提高为读者或者说用户服 从巨大的数据集中提取模式、更改、关联、异常、规则
务的质量。 化以及统计重要的结构和事件。相对于从前的结构
随着图书馆自动化功能的日益发达,网络化的 化数据形式,目前的数据表现形式更是多种多样。
日益临近,图书馆作为社会信息中心的职能日益上 根据其主要研究对象的数据结构形式,可以将数据
升。图书馆要处理和提供的信息更多、更新、更广 挖掘分为三类:数据挖掘、web数据挖掘和文本数据
泛、更复杂。为了避免陷入“数据丰富,但信息贫 挖掘。
乏”的局面,图书馆有必要增强对信息的处理能力 ·数据挖掘。这种数据挖掘所针对的是结构化
以及对信息资源的组织能力,尤其是对海量信息的 的数据,也就是常见的SQL
深层次开发,提取表面上庞杂无序的信息的内在联 库或数据仓库。目前这方面可以使用下列软件:
MinerforDataSAS
系供读者使用。并且,随着读者信息水平和信息要 IBM的DB2Intelligent Enterprise
求的不断提高,向读者提供更主动的和个性化的信 Miner等。
息服务被摆到图书馆的面前。因此,急需一个强有 ·Web数据挖掘。这种挖掘是指针x,-f包括web
力的数据采集和处理工具介入到图书馆自动化系统 页面内容、页面之间的结构、用户访问信息、商务交
中来,为图书馆工作提供技术支持和决策管理支持。 易信息等在内的各种web数据,应用数据挖掘方法
数据挖掘技术即能满足图书馆的这种需求。 及技术以发现有用的知识来帮助人们从www中提
1数据挖掘简介 取知识,改进站点设计,更好的开展电子商务或改进
服务。Web挖掘分为web结构挖掘、web内容挖掘、
数据挖掘(DataMining)就是从大量的、不完全
的、有噪声的、模糊的、随机的实际应用数据中,提取 web访问信息挖掘。
隐含在其中的、人们事先不知道的、但又是潜在有用 ·文本数据挖掘。当数据挖掘的对象完全由文
的信息和知识的过程。这个定义包括几个含义:数 本类型组成时,结合使用数据挖掘算法与信息检索
据源必须是真实的、大量的、含噪音的;发现的是用 算法对巨量文本信息进行自动化信息处理与分析的
户感兴趣的知识;发现的知识是可接收、可理解、可 过程叫文本数据挖掘。它包括特征提取、文本摘要、
185
图书情报工作 2007年增TU(1)
LIBRARYANDINFORMATION
文档评论(0)