- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析馆藏文献资源文本挖掘及技术步骤
浅析馆藏文献资源文本挖掘及技术步骤
摘 要:数字人文学科的迅猛发展,有力地冲击着图书馆的传统服务工作,迫使图书馆急需针对馆藏文献资源进行深度挖掘。文章概述了馆藏文献和文本挖掘的基本含义,指明了开展馆藏文献资源文本挖掘的意义,对文本挖掘技术及步骤进行了简要地分析,进一步应用开源文本挖掘工具,使馆藏文献资源真正得到深度挖掘。
关键词:馆藏文献;文献资源;文本挖掘
中图分类号:G250.7 文献标识码:A文章编号:1812-2485(2014)06-041-06
近年来,现代信息技术与人文研究融合而形成的新兴的数字人文学科的迅猛发展,有力地冲击着图书馆的传统服务工作,使常规的阅读和分析已经无法应对内容稀薄而数量庞大的馆藏文献,迫使图书馆急需针对海量的馆藏文献资源进行深度的挖掘。由于数字人文研究的一个重要趋势,就是对海量文献的深度挖掘和深度处理;又由于在现阶段印刷型文献在整个馆藏文献资源中普遍占有80%的比重,因此,对印刷型文献的深度文本挖掘,显得更为十分的重要。本文就馆藏文献资源的文本挖掘即技术步骤进行简要地浅析。
1馆藏文献及文本挖掘概述
1.1馆藏文献概述
馆藏文献是指图书馆收集、整理保存并为读者利用的各类文献资源的总和,是一个集合的概念,主要包括印刷型文献、数字文献及其它类型文献(光盘、磁带、缩微胶卷等),并有其形成发展的过程。在现阶段,印刷型文献占主导地位,在整个馆藏文献资源中普遍占有80%的比重,而数字文献的比重逐年上升。如今,现代图书馆集文献信息组织、传递、利用为一体,重视文献使用价值,要求我们以信息资源开发利用的程度及满足社会信息需求的能力作为深度挖掘馆藏文献资源的基本标准。
1.2文本挖掘概述
20世纪80年代中期,最早出现劳工密集型的人工纯文字挖掘方法。后来,随着现代信息技术与人文研究融合,数字人文学科的迅猛发展,已经使这一领域迅速取得进展。随着网络时代的到来,用户可获得的信息包含了从技术资料、商业信息到新闻报道、娱乐资讯等多种类别和形式的文档,构成了一个异常庞大的具有异构性、开放性特点的分布式数据库,而这个数据库中存放的是非结构化的文本数据。结合人工智能研究领域中的自然语言理解和计算机语言学,从数据挖掘中派生了两类新兴的数据挖掘研究领域:网络挖掘(Network Mining)和文本挖掘(Text Mining)。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。文本挖掘是近几年来数据挖掘领域的一个新兴分支,目前关于文本挖掘并没有一个统一的定义,有人认为,文本挖掘是指为了发现知识,从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程。也有人认为,文本挖掘也称为文本数据库中的知识发现,总从大量文本的集合或讲料库中抽取事先未知的、可理解的、有潜在价值的模式和知识。还有人认为,文本挖掘,是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程。又还有人认为,文本挖掘是以计算语言学、统计数理分析为理论基础,结合机器学习和信息检索技术,从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。它是一个从文本信息描述到选取提取模式,最终形成用户可理解的信息知识的过程。文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生。文本挖掘通常涉及输入文本的处理过程(如通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中),产生结构化数据,并最终评价和解释输出。文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源,抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。也就是说,文本挖掘是一个分析文本数据,抽取文本信息,进而发现文本知识的过程。文本挖掘通常具有某种组合的相关性,新颖性和趣味性。1998年底,国家重点研究发展规划首批实施项目中明确指出,文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。
2 馆藏文献资源文本挖掘的意义
近年来,人们在数字人文研究中,越来越多的论文探讨文本挖掘技术的应用,并产生了一大批重要的实践项目,研究热点包括作者归属与风格分析、作品情感分析、人物关系挖掘、模式发现与可视化、人文学科领域本体构建等。从一大批重要的实践项目和这些研究热点表明,在数字人文中对馆藏文献资源进行文本挖
原创力文档


文档评论(0)