- 1
- 0
- 约8.69千字
- 约 2页
- 2019-08-18 发布于北京
- 举报
基于子树广度的Web信息抽取-甘肃科技文献共享平台.PDF
第35 卷 第3 期 计 算 机 工 程 2009 年2 月
Vol.35 No.3 Computer Engineering February 2009
·软件技术与数据库· 文章编号:1000—3428(2009)03—0089—02 文献标识码:A 中图分类号:TP393
基于子树广度的Web 信息抽取
王 权,施韶亭
(甘肃省科学技术情报研究所,兰州 730000)
摘 要:提出一种新的网页信息抽取方法,基于子树的广度可不加区分地对不同科技文献网站的页面信息进行自动抽取。对大量科技文献
网站进行信息抽取实验,已应用到甘肃省科技文献共享平台。实验结果证明,该方法能不依赖科技文献网页的来源而自动地抽取相关信息,
并能保证较高的数据抽取回召率和查准率。
关键词:子树广度;信息抽取;跨库检索
Web Information Extraction Based on Sub-tree Breadth
WANG Quan, SHI Shao-ting
(Institute of Science Technology Information of Gansu, Lanzhou 730000)
【Abstract 】This paper proposes a new method which can extract the useful information from the different document sites automatically based on
the breadth of a sub-tree. Experimental evaluation on a large of Web pages from different document Web sites has done and this method has been
applied to the platform of gansu science technology document sharing successfully. Experimental result shows this method automatically extracts
the information ignoring where Web sites the pages come from and has high accuracy in terms of recall and precision .
【Key words 】sub-tree breadth; information extraction; cross-search
对不同数据源的检索信息进行提取是跨库检索系统的一
种关键技术。文献[1]基于XML 提出一系列交互机制和启发
式算法生成信息抽取规则;文献[2]定义断言说明文件,文件
中包含抽取数据的命令和步骤;文献[3]基于属性文法生成具
有容错机制的解析器对源文件进行解析抽取;文献[4]基于逻
辑的声明语言Elog 进行HTML 到XML 的翻译和解析。在遇
到异构性多数据源时,上述抽取方法均是针对某个信息源单
独进行提取,没有建立一个较高级别的统一抽象。本文提出
一种新的基于子树广度的网页信息抽取方法,能不区分科技 图2 VIP 网页组织形式
文献网页来源而自动正确地抽取相关重要内容,当网页更新 本文提出的方法不用生成抽取模板,而是通过查看科技
时也能自动正确地抽取信息。 文献网站每页显示的题录数并将此数存储在数据库,再使用
1 基于子树广度的信息抽取 HTML Tidy[5]将这些网页的HTML 格式清理转换成 XML 文
同一个科技文献网站采取相同的模板生成,
您可能关注的文档
- 基于HL7的电子病历交换模型的研究-Read.doc
- 基于IDA的钢管混凝土空间组合架连续梁桥抗震易损性я析-世界地震工程.PDF
- 基于J2EE的Oracle数据库连接研究与实现-中国科技论文在线.PDF
- 基于Kriging方法的三维地质可视化系统构建-华南地震.PDF
- 基于LDC的图像过渡区提取与分割-激光与红外.PDF
- 基于LMS和Fast-Kurtogram的滚动轴承早期故障诊断-噪声与振动控制.PDF
- 基于MATLAB的仿壁虎机器人天花板粘附运动仿真-OpenRepositoryof.PDF
- 基于Mel子带参数化特征的自动鸟鸣识别Automated-计算机应用.PDF
- 基于Memetic算法的车间动态调度策略研究-中国机械工程.PDF
- 基于ODMGJava绑定的面向对象数据库存储管理①-计算机系统应用.PDF
最近下载
- 高考英语单词3500乱序版 ..pdf VIP
- 2025-2026学年广东省深圳市龙岗区七年级(上)期末语文试卷.docx VIP
- 教科版一年级下册科学教学计划.docx VIP
- 船舶X波段雷达说明书FAR-2827.pdf VIP
- 古野液晶雷达型号 1623中文说明书.docx VIP
- UX3320-应用笔记V1.2近年原文.pdf VIP
- 长春理工大学2024-2025学年第1学期《高等数学(上)》期末考试试卷(B卷)附参考答案.pdf
- 早产儿脑室内出血预防专家共识(2025).pptx VIP
- 2019年河南专升本考试公共英语(真题).pdf VIP
- 2025年房地产经纪人经纪人职业道德失范投诉处理专题试卷及解析.pdf VIP
原创力文档

文档评论(0)