网络信息自动化高效抽取技术地研究.pdf

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
Classified Index: TP391.2 U.D.C: 618.37 Dissertation for the Doctoral Degree in Engineering RESEARCH ON AUTOMATIC AND EFFICIENT TECHNOLOGIES FOR WEB INFORMATION EXTRACTION Candidate: Song Xinying Supervisor: Prof. Hon Hsiao-Wuen Academic Degree Applied for: Doctor of Engineering Specialty: Computer Science and Technology Affiliation: School of Computer Science and Technology Date of Defence: August, 2013 Degree-Conferring-Institution: Harbin Institute of Technology 摘 要 摘 要 随着互联网爆炸式的发展和普及,网络信息已经成为了一种宝贵的信息数 据资源。海量的网络数据使得数据分析与挖掘系统进入了一个新时代,越来越 多的网络应用系统需要对来自不同数据源的结构化数据进行抽取、挖掘和整 合。然而,由于网页文档的半结构化性质,网页上呈现的数据往往不能被机器 自动地抽取和理解,因此,网络信息抽取的研究目标在于提取网页的结构化数 据。互联网数据的海量规模与高度异构的特征,为网络信息抽取工作带来了巨 大的挑战。 本文围绕网络信息的海量规模与高度异构的特征,分数据记录抽取和数据 单元抽取两个层次,对自动化、高效抽取网络信息的技术展开了相关研究,研 究内容包括以下四个方面: 1. 针对网络信息高度异构的特点,提出新的自动化的基于锚点树的数据记 录的抽取方法(Mining data records Based on Anchor Trees ,MiBAT )。首先分析了 当数据记录含有一定的不规则内容时(例如用户原创内容)时,现有的基于相 似度检测的自动化方法并不能取得理想的抽取效果。本文提出锚点的概念,对 应数据记录中的某些关键的数据单元。例如,每个用户创建、发表的帖子记录 (例如在线论坛帖子、用户评论等)都含有发帖时间这个关键的数据单元,可 以作为由领域约束获得的锚点。本文提出MiBAT 方法,利用领域约束检测出 锚点,然后围绕包含锚点的DOM (Document Object Model )子树,完成数据记 录的自动化抽取工作。实验表明,与以往的自动化的数据记录抽取方法相比, MiBAT 方法可以较好的克服数据记录的不规则性,具有较高的抽取准确度。 2. 针对数据记录层次的网络信息的海量规模的特点,提出快速高效的锚点 树的寻找算法。传统的网络信息挖掘算法采用自上而下的枚举DOM 子树的方 2 式,按照这种方式设计锚点树寻找算法,MiBAT 的时间复杂度为O(n ),其中n 是输入网页的DOM 树的结点的数量。本文提出一个新的基于标签路径自底向 上聚集的锚点树寻找算法,使得MiBAT 的时间复杂度降到O(n log n) 。实验表 明,新的锚点树寻找算法极大地提高了MiBAT 方法的运行效率,同时保持较 高的抽取准确度。 3. 针对网络信息的跨领域异构的特点,提出不依赖领域约束的通用锚点的 检测方法。锚点的概念最初由领域约束而来,对应于领域相关的数据单元。在 实际应用时,对不同的领域,需要预先指定相应的领域约束,这在某种程度上 - I - 哈尔滨工业大学工学博士学位论文 限制了MiBAT 方法的自动化应用。本文对此进行扩展,提出通用锚点的概念 及其检测和

文档评论(0)

llllss930 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档