网络信息自动化高效抽取技术地研究.pdf

下载文档 降价啦

3
0
约20.58万字
发布于安徽
举报
版权申诉
保障服务
文档已下架，其它文档更精彩

网络信息自动化高效抽取技术地研究.pdf

1、本文档被系统程序自动判定探测到侵权嫌疑，本站暂时做下架处理。
2、如果您确认为侵权，可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理，应急电话：400-050-0827。
3、此文档由网友上传，因疑似侵权的原因，本站不提供该文档下载，只提供部分内容试读。如果您是出版社/作者，看到后可认领文档，您也可以联系本站进行批量认领。

Classified Index: TP391.2 U.D.C: 618.37 Dissertation for the Doctoral Degree in Engineering RESEARCH ON AUTOMATIC AND EFFICIENT TECHNOLOGIES FOR WEB INFORMATION EXTRACTION Candidate: Song Xinying Supervisor: Prof. Hon Hsiao-Wuen Academic Degree Applied for: Doctor of Engineering Specialty: Computer Science and Technology Aﬃliation: School of Computer Science and Technology Date of Defence: August, 2013 Degree-Conferring-Institution: Harbin Institute of Technology 摘要摘要随着互联网爆炸式的发展和普及，网络信息已经成为了一种宝贵的信息数据资源。海量的网络数据使得数据分析与挖掘系统进入了一个新时代，越来越多的网络应用系统需要对来自不同数据源的结构化数据进行抽取、挖掘和整合。然而，由于网页文档的半结构化性质，网页上呈现的数据往往不能被机器自动地抽取和理解，因此，网络信息抽取的研究目标在于提取网页的结构化数据。互联网数据的海量规模与高度异构的特征，为网络信息抽取工作带来了巨大的挑战。本文围绕网络信息的海量规模与高度异构的特征，分数据记录抽取和数据单元抽取两个层次，对自动化、高效抽取网络信息的技术展开了相关研究，研究内容包括以下四个方面： 1. 针对网络信息高度异构的特点，提出新的自动化的基于锚点树的数据记录的抽取方法（Mining data records Based on Anchor Trees ，MiBAT ）。首先分析了当数据记录含有一定的不规则内容时（例如用户原创内容）时，现有的基于相似度检测的自动化方法并不能取得理想的抽取效果。本文提出锚点的概念，对应数据记录中的某些关键的数据单元。例如，每个用户创建、发表的帖子记录（例如在线论坛帖子、用户评论等）都含有发帖时间这个关键的数据单元，可以作为由领域约束获得的锚点。本文提出MiBAT 方法，利用领域约束检测出锚点，然后围绕包含锚点的DOM （Document Object Model ）子树，完成数据记录的自动化抽取工作。实验表明，与以往的自动化的数据记录抽取方法相比， MiBAT 方法可以较好的克服数据记录的不规则性，具有较高的抽取准确度。 2. 针对数据记录层次的网络信息的海量规模的特点，提出快速高效的锚点树的寻找算法。传统的网络信息挖掘算法采用自上而下的枚举DOM 子树的方 2 式，按照这种方式设计锚点树寻找算法，MiBAT 的时间复杂度为O(n )，其中n 是输入网页的DOM 树的结点的数量。本文提出一个新的基于标签路径自底向上聚集的锚点树寻找算法，使得MiBAT 的时间复杂度降到O(n log n) 。实验表明，新的锚点树寻找算法极大地提高了MiBAT 方法的运行效率，同时保持较高的抽取准确度。 3. 针对网络信息的跨领域异构的特点，提出不依赖领域约束的通用锚点的检测方法。锚点的概念最初由领域约束而来，对应于领域相关的数据单元。在实际应用时，对不同的领域，需要预先指定相应的领域约束，这在某种程度上 - I - 哈尔滨工业大学工学博士学位论文限制了MiBAT 方法的自动化应用。本文对此进行扩展，提出通用锚点的概念及其检测和

您可能关注的文档

知传链电子书

文档评论（0）

llllss930 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

网络信息自动化高效抽取技术地研究.pdf