网页叙词表信息采集工具实现方法探讨.pdfVIP

网页叙词表信息采集工具实现方法探讨.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现代商贸工业 型2:!!:!!!i 。:—丝唑坠墼尘塑兰坚型些坚—————————竺竖塑丝丝 网页叙词表信息采集工具实现方法探讨 卢同同 (太原理工大学图书馆,山西太原030024) 摘 要:通过对常用网页叙词表格式的分析与总结,实现了常用网页叙词表数据自动提取工具。工具通过webBrows’ er控件对web页面的加栽,实现叙词表web页面信息的提取,阐述了提取工具的各主要模块功能实现以及系统结构流程 图,并对系统中涉及到的主要函数实现进行了详细的说明。 关键词:网页叙词表提取;叙词表网页格式;webBrowser控件 中图分类号:F49 文献标识码:A 文章编号:1672—3198(2013)24—0158—02 叙词也称为主题词,是经过规范化处理的,以基本概念 括了叙词对应的上位词,下位词,相关词,人口词,范围注释 为基础的表达信息内容的词和词组,也叫受控词。是在文 等信息,这些也就是我们要提取的数据信息。 献标引与检索中用以表达文献的主题而规范化的词。 叙词表也称为主题词表,是文献与情报检索中用以标 引主题的一种检索工具。它是一些规范化的、有组织的、能 体现主题内容的、已定义的名词术语的集合体。 规范、合理的主题词表是主题标引的前提和基础,只有 主题词表建设和运用的准确,才会使文献标引结果更准确, 用户检索结果也更准确、更全面。由于不同学科的文献有 各自的学科特点和用词特点,而且互联网上有很多优秀的 专业的主题词表,如何采集网页版的主题词表信息,是我们 进行主题词表分析与研究的第一步工作,本文详细介绍了 一种适合大多数网页叙词表数据的通用的网页主题词表提 取数据的方法。 l 网页叙词表提取工具的需求 图1中主要包括的元素如下说明: 目前常用的网页数据提取工具,无法针对需求对整个 检索框:主要便于用户通过输入叙词,在网站中快速找 网站的具体数据进行提取,或者由于有些词表网站的URL到该叙词,获取该叙词的相关信息; 是动态的,不断变化的,更增加了提取数据的难度,所以常 检索按钮:用户通过在检索框中输人内容,点击“检索 用的网页数据提取工具不能满足主题词表的信息提取需 按钮”触发检索,得到检索结果; 求。 叙词列表:呈现本页显示的所有叙词,其中每个叙词占、 网页叙词表提取工具有如下三个需求:一是提取内容。 一行,且每个叙词都可以点击触发链接,进入叙词词间关系 通过对应的网页叙词表,依序获取叙词,以及叙词的词间关 页,查看叙词的词间关系。不同的词表,信息会有所不同, 系,包括:上位词,下位词,相关词,范围说明等,按照需求得 这些信息也就是我们要提取的数据; 到整个词表的信息。二是质量标准。一个网页提取工具应 翻页按钮(上一页,下一页):页面通过这两个按钮进行 该要满足准确性、全面性、高效率三个条件。准确性是指提 翻页功能,在叙词表提取工具中,当该页的叙词列表中的所 取出的词表要准确无误,包括词本身的内容以及词间关系 有叙词提取完毕后,程序通过这两个按钮进行翻页。 都应与网站内容完全相同;全面性指的是首先是保证词表 的提取全面,保证不遗漏词表的任意主题词,其次在提取出 的主题词中,要保证主题词的词间关系不能遗漏,比如上下 位关系,相关词,范围说明等;高效率是指主题词表的数据 庞大,少则几万条,多则几十万条甚至上百万,再加上主题 词的相关信息,需要获取的web页面数量和提取数据都很 庞大,所以提取工具必须能快速地对词表进行数据采集。 2叙词表提取工具的实现 2.1一般网页叙词表格式 叙词表提取工具的实现基于一般网页叙词表格式,通 过对大多数网页叙词表的分析与归纳,总结出大多数叙词 表列表页与叙词词间关系页的基本结构如图1与图2所示。 在叙词词间关系页上,显示了叙词的所有词间关系,包 作者简介:卢同同(1982一),女,山东潍坊人,博士,太原理工大学图书馆馆员。 一158— 现代商贸工业 Mode

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档