面向deep+web的数据抽取和结果聚合技术的研究.pdf

面向deep+web的数据抽取和结果聚合技术的研究.pdf

面向deepweb的数据抽取与结果聚合技术研究 捅 姜 随着计算机网络的高速发展,网络资源越来越丰富,一方面拓宽了人们获取信息的 渠道,另一方面信息的秩序混乱又使得用户难以浩瀚万千的信息中获取需要的信息,搜 索引擎为用户提供网络信息的检索与分类功能。在网络资源中,有一种资源是传统搜索 web资源是指传统搜索引擎不能索 引擎索引不到的。这种资源叫deepweb资源。Deep web资源因其资源丰富,专业性 引到的资源,是能够被访问的在线web数据库。deep 强,自动更新速度快,数据海量,领域范围广等优点。越来越受到人们的青睐。研究如 web查询接口返回的数据进行抽取以及对抽取结果进行聚合具有重要的 何对通过deep 理论意义和实践价值。 本文针对deepweb资源的数据抽取与结果聚合进行研究,数据抽取阶段,首先简 要介绍MDR,总结MDR在deepweb页面信息抽取中遇到的效率问题,从MDR数据抽取算 法中得到启示,对MDR算法进行改进以降低数据抽取的时间复杂度。抽取算法使用标签 树对HTML页面进行表示,在抽取之前对页面清洗,规范化并构造标签树。使用标签树 的结构相似度定位数据记录。相似度计算方法改进了树编辑距离算法时间复杂度高的缺 点,改进了元素比较法的不能真实反映树结构的缺点,在面向deepweb的数据抽取中 有较好的抽取效果。然而有些数据记录之间的相似度较低,使用基于标签树的相似度的 数据抽取算法也会有不好的情况,为了解决这种标签结构的数据记录识别问题,在改进 通过标签树结构相似度判定数据记录的基础上,提出一种基于子树不完全匹配的数据记 录抽取算法。结果聚合主要研究的是抽取结果去重,在去重之前先按照属性权重排序, 减少了比较次数,实现数据记录的快速有效去重。 实验表明,基于标签树路径的结构相似度的数据记录抽取算法的抽取效率比MDR高, 同时证明基于子树不完全匹配的数据记录发现算法的抽取效果比MDR和基于标签树路径 的结构相似度的数据记录抽取算法都好。按照属性权重排序后的去重算法比直接去重算 法效率要高。 web;数据抽取;DOM;结构相似度;结果聚合 关键字:deep 面向deepweb的数据抽取与结果聚合技术研究 Abstract Withthe of rapiddevelopment resourcesare richer computernetwork,networkgetting increasingly one broadens daybyday,onhand,which accessto people’S other disorderofinformation hand,the makesusersdifficult to theirInformationneeded get fromvast network information;search informationretrievaland enginesprovide classification servicefor isa users.However,therekindofresourcethatcan’tb

文档评论(0)

1亿VIP精品文档

相关文档