基于子树广度的Web信息抽取-甘肃科技文献共享平台.PDFVIP

  • 1
  • 0
  • 约8.69千字
  • 约 2页
  • 2019-08-18 发布于北京
  • 举报

基于子树广度的Web信息抽取-甘肃科技文献共享平台.PDF

基于子树广度的Web信息抽取-甘肃科技文献共享平台.PDF

第35 卷 第3 期 计 算 机 工 程 2009 年2 月 Vol.35 No.3 Computer Engineering February 2009 ·软件技术与数据库· 文章编号:1000—3428(2009)03—0089—02 文献标识码:A 中图分类号:TP393 基于子树广度的Web 信息抽取 王 权,施韶亭 (甘肃省科学技术情报研究所,兰州 730000) 摘 要:提出一种新的网页信息抽取方法,基于子树的广度可不加区分地对不同科技文献网站的页面信息进行自动抽取。对大量科技文献 网站进行信息抽取实验,已应用到甘肃省科技文献共享平台。实验结果证明,该方法能不依赖科技文献网页的来源而自动地抽取相关信息, 并能保证较高的数据抽取回召率和查准率。 关键词:子树广度;信息抽取;跨库检索 Web Information Extraction Based on Sub-tree Breadth WANG Quan, SHI Shao-ting (Institute of Science Technology Information of Gansu, Lanzhou 730000) 【Abstract 】This paper proposes a new method which can extract the useful information from the different document sites automatically based on the breadth of a sub-tree. Experimental evaluation on a large of Web pages from different document Web sites has done and this method has been applied to the platform of gansu science technology document sharing successfully. Experimental result shows this method automatically extracts the information ignoring where Web sites the pages come from and has high accuracy in terms of recall and precision . 【Key words 】sub-tree breadth; information extraction; cross-search 对不同数据源的检索信息进行提取是跨库检索系统的一 种关键技术。文献[1]基于XML 提出一系列交互机制和启发 式算法生成信息抽取规则;文献[2]定义断言说明文件,文件 中包含抽取数据的命令和步骤;文献[3]基于属性文法生成具 有容错机制的解析器对源文件进行解析抽取;文献[4]基于逻 辑的声明语言Elog 进行HTML 到XML 的翻译和解析。在遇 到异构性多数据源时,上述抽取方法均是针对某个信息源单 独进行提取,没有建立一个较高级别的统一抽象。本文提出 一种新的基于子树广度的网页信息抽取方法,能不区分科技 图2 VIP 网页组织形式 文献网页来源而自动正确地抽取相关重要内容,当网页更新 本文提出的方法不用生成抽取模板,而是通过查看科技 时也能自动正确地抽取信息。 文献网站每页显示的题录数并将此数存储在数据库,再使用 1 基于子树广度的信息抽取 HTML Tidy[5]将这些网页的HTML 格式清理转换成 XML 文 同一个科技文献网站采取相同的模板生成,

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档