Web内容挖掘技术 - 公共图书馆研究院.DOC

下载文档

0
0
约6.04千字
约 4页
2017-08-05 发布于天津
举报
版权申诉
保障服务

Web内容挖掘技术 - 公共图书馆研究院.DOC

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Web内容挖掘技术 - 公共图书馆研究院

Web内容挖掘在数字图书馆中的应用黎琳四川大学公共管理学院信息管理系四川成都 610064 [摘要]文章在介绍web内容挖掘对数字图书馆中的重要作用的基础上，详细阐述了数字图书馆中对web内容中的文本信息的挖掘过程，包括文本自动摘要，文本分类和文本聚类，分析了如何在挖掘过程中结合用户需求，得到更好的挖掘结果。 [关键词]Web 内容挖掘数字图书馆 Web Content Mining in Digital Library Li Lin School of Public Administration, Sichuan University, Chengdu，Sichuan 610064 [Abstract]After an introduction of the important role of web content mining in the digital library, the process of text mining that is a part of web content mining is shown, which includes automatic abstracting, classing and clustering for texts. In addition, how to improve the effect of mining according to the need of customer is analyzed. [Keywords] Web；Content mining；Digital library 1数字图书馆概述数字图书馆“是采用现代高新技术的数字信息资源系统，是没有时空限制的、便于使用的、超大规模的知识中心。”[1]从这个定义可以得出，数字图书馆并不是将传统图书馆的纸质资源简单数字化，以及将传统图书馆的业务转移到网络环境中完成，数字图书馆的最终目标，应是通过对数字化资源的建设，为用户提供知识。正如馆藏资源是传统图书馆的生命一样，数字图书馆建设的核心是数字资源，要为用户提供知识，必须建立在丰富的数字资源基础之上。数字图书馆的资源来源可以有多种途径，目前主要有以下几种：（1）本馆纸质资源的数字化。数字图书馆的建设主体通常是传统图书，将传统图书馆的纸质馆藏数字化，使其成为数字化馆藏，是许多数字图书馆数字资源的重要来源。这些资源有目录型的，也有全文型的。数字资源相对纸质资源有许多优势，除便于用户通过网络查找以外，更是实现知识服务的基础。（2）外购数据库。国内较有名的有清华同方CNKI，重庆维普，书生之家等等，国外有John Wiley电子期刊，SDOS数据库美国化学文摘等。针对特定服务群体，购买相应专业的数据库，这其中有一个普遍存在的问题就是异构数据库。由于各个数据库为不同厂商开发，用户要在不同的数据库进行检索就必须进入不同的检索界面，且检索结果无法排重，加重了用户负担；在知识服务阶段，作为知识服务基础的数字资源也需要解决异构数据库问题。(3)自建数字资源。根据开发程度的深浅，可分为建立学科导航库和建立特色数据库。根据服务对象的专业特征，图书馆工作人员在网上检索相关学科网站，对网站内容进行描述，将网站描述内容、网站地址、网站建立者、建立时间等信息形成记录，从而建立学科导航库。建立特色库是根据本馆的馆藏特点，将其有特色的纸质资源电子化，并对其进行深加工，进行深度标引，最终形成便于检索的特色数据库。数字图书馆目前能够给用户提供的主要服务就是查询已有的资源，获得电子版全文或到图书馆获取全文，实现的都是一些基本的数据操作，数字图书馆要成为“知识中心”,还需要长期探索。将web数据挖掘技术应用在数字图书馆中，使数字图书馆“知识中心”的目标向前迈了一步。 2 web内容挖掘在数字图书馆中的意义数据挖掘就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。[5]Web挖掘是将数据挖掘的思想和方法应用到Web页面内容、页面之间的结构、用户访问信息等各种Web数据中，从中抽取隐含的、以前未知的、具有潜在应用价值的信息。Web挖掘对在浩瀚的网络中发现有价值的知识、改进网站设计、提供更好的网上服务有重要的作用。根据挖掘的对象不同，Web挖掘可分为web内容挖掘、web结构挖掘和web用户挖掘，本文主要对web内容挖掘中对文本的挖掘在数字图书馆中的应用做了一点研究。 2.1 web内容挖掘有利于丰富数字图书馆资源数字图书馆的核心是数字资源，除了本馆的数字化馆藏、外购数据库，Internet上丰富的资源是数字图书馆资源的一个重要来源。然而，将Internet上的资源为数字图书馆所用，需要解决以下问题：（1）Internet上的数据是无序的，价值与垃圾同在，虽然搜索引擎