- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十七届全国数据库学术会议论文集(技术报告篇)
基于Web的文献数据挖掘
徐 慧
(中国矿业大学北京校区计算机教研室 北京 100083xuh@maff.cumtb.edu.cn)
Abractts Inthepaper,implementationmethodsand户归calapplicationliveillustrationsfor
remoteanal”月sandprocessingofliteratureinformation勿utilizingdataminingtechandt址 mode
basedonWEBaregiven.
Keywords DATAMINING DATAWAREHOUSE DATABASE WEB LITERA
TURE
1 引 言
文献是人们获得信息和知识的一个重要途径。许多科学研究的首要工作就是进行文献脸索,然后通
过对检索信息的数据挖掘来验证一些假设或发现一些新的知识。目前,利用计算机和互连网检索文献已
成为文献检索的主要手段,随之而来的问题是人们面临检索出来的大量文献信息却不能逐一阅读,更谈不
上对这些文献信息进行较深层次的数据挖掘。因此,实现文献信息的网上数据挖掘是非常有意义的。
2 数据挖掘技术
数据挖掘(DataMining,简记为。M)是一种决策支持过程,它主要基于人工智能、机器学习、统计学技
术,通过对原始数据的高度自动化地分析处理,作出归纳性的推理.得到数据对象间的关系模式,这些模式
反映了数据的内在特性,是对数据包含信息的更高层次的抽象 在专家指导下的数据挖掘可以进行有目
的的知识提取,整个过程由计算机来完成,很少需要人工干预,不仅大大提高了分析处理的效率,而且提高
了分析处理的深度。因此,数据挖掘技术在信息处理领域正在越来越受到人们的重视。
在数据挖捆中常用的分析方法有关联分析、分类分析和聚类分析等
(1)关联分析。关联分析就是给定一组数据项和一个记录集合,通过分析记录集合,推导出数据项间
的相关性(包括简单关联、时序关联和因果关联)。其目的是为了挖掘出隐藏在数据间的相互关系。
(2)分类分析。假定记录集合和一组标记 首先为每一个记录斌予一个标记.即按标记分类记录,然后
检查这些标定的记录,描述出这些记录的特征。
(3)聚类分析。聚类分析所处理的对象是一组未标定的记录,然后根据一定的规刻对记录集合进行合
理的划分。
3 文献数据挖掘的实现方法
实现文献数据挖掘工作应分为两个部分,首先是建立文献数据仓库,然后再对存储在数据仓库中的文
献数据进行数据挖捆。
第十七届全国数据库学术会议论文集(技术报告篇)
3.1建立文做数据仓库
建立文献数据仓库的步骤如下:1()设计文献信息解析模型。对文献信息的全方位的解析是对文献进
行数据挖拥的基础。文献的解析模型直接决定了今后对文献信息实施数据挖掘的能力。因此,设计一个
全面、合理的文献解析摸型是非常重要的。文献解析摸型确定之后,就可以按照确定的格式解析文献数
据。
()2设计文献数据仓库模型。文献数据仓库中主要对象包括文献的解析数据、标准词表、文献的标引
数据等内容。这些数据的组织应按照数据仓库的概念面向主题组织数据,即在较高层次上对分析对象的
数据的一个完整、一致性的描述.能完整、统一地刻画各个分析对象所涉及的各项数据以及数据之间的联
系。
()3设计文献数据仓库管理系统。文献数据仓库管理系统负责数据的建立和维护。主要包括文献数
据的装人和维护、标准词表的建立和维护、文献数据的标引和维护等功能。
3.2文献救据挖拐的步弃
文献数据挖掘可分为以下几个步味进行:
()1文献资料预选。首先分析人员要预选出所关心的某一主题的文献资料。因此,系统要提供一个
文献检索机制,以实现文献资料预选。
2()文献资科啼选。在前面选出的文献资科中,可能有一些不是分析人员最终需要的资科,如果参与
到后面的分析处理,将会影响到分析结果的准确性。因此,需要设t一个文献资料的筛选功能,以除去数
据中的嗓声。
3
文档评论(0)