- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
Classified Index: TP391.2
U.D.C: 618.37
Dissertation for the Doctoral Degree in Engineering
RESEARCH ON AUTOMATIC AND
EFFICIENT TECHNOLOGIES FOR WEB
INFORMATION EXTRACTION
Candidate: Song Xinying
Supervisor: Prof. Hon Hsiao-Wuen
Academic Degree Applied for: Doctor of Engineering
Specialty: Computer Science and Technology
Affiliation: School of Computer Science and Technology
Date of Defence: August, 2013
Degree-Conferring-Institution: Harbin Institute of Technology
摘 要
摘 要
随着互联网爆炸式的发展和普及,网络信息已经成为了一种宝贵的信息数
据资源。海量的网络数据使得数据分析与挖掘系统进入了一个新时代,越来越
多的网络应用系统需要对来自不同数据源的结构化数据进行抽取、挖掘和整
合。然而,由于网页文档的半结构化性质,网页上呈现的数据往往不能被机器
自动地抽取和理解,因此,网络信息抽取的研究目标在于提取网页的结构化数
据。互联网数据的海量规模与高度异构的特征,为网络信息抽取工作带来了巨
大的挑战。
本文围绕网络信息的海量规模与高度异构的特征,分数据记录抽取和数据
单元抽取两个层次,对自动化、高效抽取网络信息的技术展开了相关研究,研
究内容包括以下四个方面:
1. 针对网络信息高度异构的特点,提出新的自动化的基于锚点树的数据记
录的抽取方法(Mining data records Based on Anchor Trees ,MiBAT )。首先分析了
当数据记录含有一定的不规则内容时(例如用户原创内容)时,现有的基于相
似度检测的自动化方法并不能取得理想的抽取效果。本文提出锚点的概念,对
应数据记录中的某些关键的数据单元。例如,每个用户创建、发表的帖子记录
(例如在线论坛帖子、用户评论等)都含有发帖时间这个关键的数据单元,可
以作为由领域约束获得的锚点。本文提出MiBAT 方法,利用领域约束检测出
锚点,然后围绕包含锚点的DOM (Document Object Model )子树,完成数据记
录的自动化抽取工作。实验表明,与以往的自动化的数据记录抽取方法相比,
MiBAT 方法可以较好的克服数据记录的不规则性,具有较高的抽取准确度。
2. 针对数据记录层次的网络信息的海量规模的特点,提出快速高效的锚点
树的寻找算法。传统的网络信息挖掘算法采用自上而下的枚举DOM 子树的方
2
式,按照这种方式设计锚点树寻找算法,MiBAT 的时间复杂度为O(n ),其中n
是输入网页的DOM 树的结点的数量。本文提出一个新的基于标签路径自底向
上聚集的锚点树寻找算法,使得MiBAT 的时间复杂度降到O(n log n) 。实验表
明,新的锚点树寻找算法极大地提高了MiBAT 方法的运行效率,同时保持较
高的抽取准确度。
3. 针对网络信息的跨领域异构的特点,提出不依赖领域约束的通用锚点的
检测方法。锚点的概念最初由领域约束而来,对应于领域相关的数据单元。在
实际应用时,对不同的领域,需要预先指定相应的领域约束,这在某种程度上
- I -
哈尔滨工业大学工学博士学位论文
限制了MiBAT 方法的自动化应用。本文对此进行扩展,提出通用锚点的概念
及其检测和
文档评论(0)