- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息抽取在图书馆资源建设中应用
信息抽取在图书馆资源建设中的应用
摘要:随着信息技术的发展使图书馆的传统功能逐渐边缘化,提供更多的资源以及服务成为图书馆发展的一个方向。文章阐述了网络时代下的信息抽取的概念以及不同的抽取方式在图书馆资源建设中的应用。
关键词:信息抽取 资源建设 数据抓取
现代网络技术的发展在带来信息爆炸的同时,也使得图书馆一类的文化单位逐步被边缘化。在此环境之下,由更广泛的角度出发,开发出新的服务产品迫在眉睫。鉴于现今大多数网络信息资源是免费提供的,图书馆如何将这些免费的资源提取出来,有效整合并提供给读者就成为了一项新的任务。
1 信息抽取
信息抽取涉及到为从文本中选择出的信息创建一个结构化的表示形式[1],Web 信息抽取则可引申为: 从网页文本中抽取出指定的一类信息,并将其形成结构化数据的过程。
现有的web信息抽取技术主要有:基于自然语言处理方式的信息抽取,基于包装器归纳方式的信息抽取,基于Onlology方式的信息抽取,基于HTML结构的信息抽取,基于web查询的信息抽取。
1.1 基于自然语言处理的信息抽取
将文本分割成多个句子,对每个句子的成分进行标记,将语法结构依据事先定制的规则进行匹配,从而抽取所感兴趣的信息即为基于自然语言的信息抽取[2]。其中所用到的抽取规则指词或词类间的句法关系,此种抽取方法适用于对含有大量自由文本的网页信息的抽取。当然组成网页的这些文本须为完整且适合语法分析的句子。该种方法需要进行大量的样本学习,处理速度较慢,只适用于有针对性的个别网页信息的抽取。
1.2 基于包装器归纳方式的信息抽取
基于包装器归纳的信息抽取与前者的差别在于其文本匹配规则是利用归纳学习的方法生成的。首先由用户标记样本实例,然后应用机器学习方式对样本使用归纳算法生成基于定界符的抽取规则。其中定界符实质上是对感兴趣语义项上下文的描述,即根据语义项的左右边界来定位语义项。[3]该种方法较少依赖于全面的句子语法分析和分词等复杂的自然语言处理技术,更注重于文本结构和表现格式的分析。它充分利用了web文档独特于普通文本的层次特性。由于避免了使用复杂的语言学习知识,基于包装器归纳方法的信息抽取方法获得了更快的处理速度。但是这种方法中由于包装器对网页结构的依赖导致它的可重用性比较差。
1.3 基于HTML的信息抽取
基于HTML的信息抽取需通过对网页结构进行解析来获取信息。首先根据HTML代码的标识码进行结构定位,通过自动或半自动的方式产生抽取规则并进行信息抽取。该系统可对不同的区域类型采用不同抽取规则,提高了系统的灵活性和效率。但由于系统中对结构的划分主要取决于网页结构代码,所以这类系统适用于有明显区域结构的网页。
1.4 基于web查询的信息抽取
基于web查询的信息抽取通过使用标准的web查询语言对web文档进行查询。常用的有搜索引擎技术和web查询语言技术。搜索引擎技术应用非常广泛,但在信息搜集中要花费较多人力,且难以实现自动地对信息持续性的抽取。
2 信息抽取在图书馆资源建设中的应用
2.1 数据挖掘
图书馆资源建设过程中,可利用对自然语言文本进行模式识别和匹配的方法从数字文献及各种数据库中抽取信息。
通过这种方法自动建立在线数字文献的引文数据库,包括引用作者、引用作者的地址、引用论文的标题、关键字等等。其次,通过对元数据的标引可以生成文献代理帮助用户获取信息。[4]
通过数据挖掘的方法可以获取更多的网络资源,将这些资源分类组织以后就可以形成图书馆的专题库,从而可以更有针对性地为读者服务。
2.2 对开放存取期刊网站的信息抽取
近年来为了在有限经费的基础上为读者提供尽可能全面的文献资源服务,图书馆越来越重视对开放存取资源的利用。例如我馆于2012年就建立云南农业大学开放获取期刊平台,包含了44种中文期刊和630余种外文期刊以及其它网络开放获取资源。对开放获取资源的利用也是图书馆发展的趋势。
在对开放存取资源的利用中信息抽取可以在很大程度上帮助我们找到资源、组织资源。首先可以通过信息抽取的方法在网络中发掘更多的开放存取资源。其次,对于相对稳定的开放存取期刊的获取网站而言可以利用信息抽取的方法定期地从期刊网站中获取每期的期刊论文。在固定的期刊网站中抽取信息时适合于采用基于HTML和基于包装器的信息抽取方式。
2.3 对数据库信息的抽取
由于数据库的组织结构稳定性比较强,所以在对各种数据库进行数据抓取的过程中采用信息抽取技术也可以取得较好的效果。在各种信息抽取方式中宜采用基于包装器的方式。因为抽取对象结构变动小,包装器一旦形成可以长期使用。
3 信息抽取的应用系统
信息抽取在资源建设中更多的
原创力文档


文档评论(0)