- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据挖掘技术及其在数字图书馆中的应用
摘要:数据挖掘技术是信息市场竞争发展和信息经济竞争的产物。随
着信息市场竞争的深入发展和日趋激烈,数据挖掘技术在图书馆界和
信息界的应用将越来越广泛。对此进行了论述。
关键词:数据挖掘技术;数字图书馆;应用
0引言
数字化是当代图书馆的鲜明特征,数字图书馆是未来图书馆的存
在形式。在现代科学技术的推动下,高校图书馆正朝着自动化、数字
化和信息化的方向发展。数字图书馆替代传统图书馆已是大势所趋。
高校图书馆不仅是学校的文献信息中心,也是为教学和科研服务
的教育学术性机构,在高校的教学、科研中扮演着重要的角色,高校
图书馆因其信息量大、占用空间少、更新速度快、不受时空限制等特
点越来越受到人们的关注,但人们在享受着数字图书馆所带来便捷的
同时,也深受其庞大而形式多样的信息资源困扰。对单个读者来说,
不可能对数字图书馆的所有信息资源都需要,而同样的信息也不一定
会满足所有的读者,造成了读者短时间内无法找到适合自己的有用资
源。因此目前的高校图书馆面临着愈来愈严重的挑战,亟需进行改进
和提高。
1数据挖掘技术
1.1数据挖掘概念
广义的数据挖掘又称数据库中的知识发现
(KnowledgeDiscoveryinDatabases),简称知识发现(KDD)。它是从
大量的、不完整的、有噪声的、模糊的和随机的数据中,提取隐含在
其中的、人们事先不知道的、但又是可信的、潜在的和有价值的信息
和知识的过程。狭义的数据挖掘是一个利用各种分析工具在海量数据
中发现模型和数据之间关系的过程,是知识发现过程中的一个步骤。
1.2数据挖掘技术及其特点
在各个领域的应用中,最常用的数据挖掘技术主要有决策树、神
经网络、关联规则、聚类分析、统计学习、模糊集和粗糙集等。数据
挖掘的特点可以归纳为:
(1)海量性。主要从数据中挖掘出规则,其数据必须是海量的、
可以表示整个领域业务状况的。数据挖掘所处理的数据源一般是多个
数据库经过数据预处理后形成的。
(2)复杂性。在建模方面,数据挖掘的重点大多放在“学习”
上,对模型的复杂性和需要的计算量较为关注,而很少放在大样本的
渐进推论上。数据挖掘技术有能力对复杂的数据关系进行建模,更适
合解决复杂问题。
(3)离散性。在实践中,算法涉及连续和离散的数据集是非常
普遍的,统计学中的大多数变量分析方法是为连续变量设计模型的,
但多数数据挖掘方法更适合离散变量的分析。
(4)可用性。数据挖掘的目标在于发现知识,根据历史数据提
取规则,管理和维护规则,并且将数据挖掘结果用于指导现在的行为
和预测未来。因此挖掘的知识必须是可用的。
(5)动态性。数据挖掘出的规则也是随着社会的进步不断变化
的,当前的规则只能反映当前的数据特征。由于数据不断产生和更新,
新数据不断加入进来,挖掘规则所用的数据与当前规则反映的情况吻
合度会慢慢降低,因此,规则也需要动态更新。
(6)相对性。数据挖掘不是发现放之四海而皆准的真理,不是
要去发现新的自然科学定理和纯数学公式,也不是证明机器定理。它
所发现的知识是相对的,是有特定条件约束的、面向特定领域的。
1.3数据挖掘过程
数据挖掘是一个完整的、反复的人机交互处理过程,该过程需要
经历多个相互联系的步骤,而且因为应用领域的分析目标需求不同,
以及数据来源和含义不同,其中的步骤也不会完全一样。一般来说,
数据挖掘的过程主要包含5个阶段:①数据准备;②数据选择;③数
据预处理;④数据挖掘;⑤转换模型以及模型评价。数据挖掘的基本
步骤如图1所示。
图1数据挖掘基本步骤
2系统设计
2.1数据挖掘技术应用于数字图书馆的必要性和可行性
随着计算机技术的迅猛发展,我国高校图书馆也进入一个集信息
储藏、加工、交互与传播于一体的数字化时代。数字图书馆建设是
21世纪图书馆迎接网络时代的必然选择,它关系着高校图书馆的生
存与发展。图书馆数字化势必要求大容量的、全面的、多样化的、能
满足各种需求的信息的支持。于是,大多数图书馆纷纷引进全文中外
文大型数据库。但是这些来源不一的数字资源由于制作和显示规范并
不统一,阅读格式以及检索界面多样而不兼容,使得读者需要安装多
种阅读器,并且对同一个主题反复检索,效率低下。为了避免这种“数
您可能关注的文档
- 未来职业规划职业规划范文八篇 .pdf
- 新型热障涂层材料及其制备技术的研究与发展 .pdf
- 文明施工责任书15篇 .pdf
- 文创的思维模式艺术如何让人们从不同角度看待世界 .pdf
- 数码相机项目立项申请书(规划说明) .pdf
- 数据传输系统设计方案 .pdf
- 数学北师大版八年级下册因式分解.因式分解教学设计doc .pdf
- 数字货币与区块链技术 .pdf
- 数字政府大脑建设项目需求方案 .pdf
- 数字信号处理填空题题库 .pdf
- 五年级数学上册5简易方程2解简易方程第8课时实际问题与方程3教学设计新人教版.doc
- 2024_2025学年新教材高中生物第2章细胞的结构和生命活动第3节第1课时细胞质膜具有选择透过性教案苏教版必修1.doc
- 江苏专用2025版高考地理一轮复习第十二章人类与地理环境的协调发展1人类与地理环境的协调练习含解析新人教版.doc
- 2024_2025学年高中化学第一章物质结构元素周期律第三节化学键练习含解析新人教版必修2.docx
- 2024_2025学年高中政治专题二君主立宪制和民主共和制:以英国和法国为例综合训练含解析新人教版选修3.docx
- 2024_2025学年高中生物课时分层作业18捕获光能的色素和结构含解析新人教版必修1.doc
- 2024_2025学年高中政治专题一古典政治经济学巨匠的理论遗产第3框李嘉图的理论贡献学案新人教版选修2.doc
- 2024_2025学年新教材高中生物第6章细胞的生命历程3细胞的衰老和死亡学案2新人教版必修1.doc
- 2024_2025学年新教材高中生物第6章生物的进化1生物有共同祖先的证据学案新人教版必修2.doc
- 司机保证书15篇 .pdf
文档评论(0)