面向deepweb的数据抽取与结果聚合技术研究
捅 姜
随着计算机网络的高速发展,网络资源越来越丰富,一方面拓宽了人们获取信息的
渠道,另一方面信息的秩序混乱又使得用户难以浩瀚万千的信息中获取需要的信息,搜
索引擎为用户提供网络信息的检索与分类功能。在网络资源中,有一种资源是传统搜索
web资源是指传统搜索引擎不能索
引擎索引不到的。这种资源叫deepweb资源。Deep
web资源因其资源丰富,专业性
引到的资源,是能够被访问的在线web数据库。deep
强,自动更新速度快,数据海量,领域范围广等优点。越来越受到人们的青睐。研究如
web查询接口返回的数据进行抽取以及对抽取结果进行聚合具有重要的
何对通过deep
理论意义和实践价值。
本文针对deepweb资源的数据抽取与结果聚合进行研究,数据抽取阶段,首先简
要介绍MDR,总结MDR在deepweb页面信息抽取中遇到的效率问题,从MDR数据抽取算
法中得到启示,对MDR算法进行改进以降低数据抽取的时间复杂度。抽取算法使用标签
树对HTML页面进行表示,在抽取之前对页面清洗,规范化并构造标签树。使用标签树
的结构相似度定位数据记录。相似度计算方法改进了树编辑距离算法时间复杂度高的缺
点,改进了元素比较法的不能真实反映树结构的缺点,在面向deepweb的数据抽取中
有较好的抽取效果。然而有些数据记录之间的相似度较低,使用基于标签树的相似度的
数据抽取算法也会有不好的情况,为了解决这种标签结构的数据记录识别问题,在改进
通过标签树结构相似度判定数据记录的基础上,提出一种基于子树不完全匹配的数据记
录抽取算法。结果聚合主要研究的是抽取结果去重,在去重之前先按照属性权重排序,
减少了比较次数,实现数据记录的快速有效去重。
实验表明,基于标签树路径的结构相似度的数据记录抽取算法的抽取效率比MDR高,
同时证明基于子树不完全匹配的数据记录发现算法的抽取效果比MDR和基于标签树路径
的结构相似度的数据记录抽取算法都好。按照属性权重排序后的去重算法比直接去重算
法效率要高。
web;数据抽取;DOM;结构相似度;结果聚合
关键字:deep
面向deepweb的数据抽取与结果聚合技术研究
Abstract
Withthe of
rapiddevelopment resourcesare richer
computernetwork,networkgetting
increasingly one broadens
daybyday,onhand,which accessto
people’S
other disorderofinformation
hand,the makesusersdifficult
to theirInformationneeded
get
fromvast network
information;search informationretrievaland
enginesprovide classification
servicefor isa
users.However,therekindofresourcethatcan’tb
您可能关注的文档
最近下载
- 2025山东劳动职业技术学院单招《数学》通关题库含完整答案详解(夺冠系列).docx VIP
- 巴蜀中学2026届高三1月适应性月考卷(六)英语试卷(含答案解析).pdf
- 大数据技术及其在土木工程中的应用.doc VIP
- SI210 控制系统调试试运转.pdf VIP
- (第一届吉林大学天文知识竞赛预赛试题及答案.doc VIP
- 《大学物理简明教程》教学课件.pptx
- 2025年高考新高考全国Ⅰ卷英语试题(含听力音频、听力原文和答案).pdf VIP
- 2025年一级造价师《建设工程造价案例分析(交通运输)》考试真题(后附权威解析).pdf VIP
- 2025年山东劳动职业技术学院单招语文模拟试题(附答案解析) 完整版2025.pdf VIP
- 精品解析:重庆市南开中学校2024-2025学年九年级上学期期末考试数学试题(原卷版).docx VIP
原创力文档

文档评论(0)